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本 书 全 面 、 深 入 地 探讨 了 编译 露 设计 方面 的 重要 主题 ， 包 括 词法 分 
析 、 语 法 分 析 、 语 法 制导 定义 和 语法 制导 翻译 、 运 行 时 刻 环境 、 目 标 代 
码 生 成 、 代 码 优化 技术 、 并 行 性 检测 以 及 过 程 间 分 析 扩 术 ， 并 在 相关 章 
节 中 给 出 大 量 的 实例 。 与 上 一 版 相 比 ， 本 书 进 行 了 全 面 修订 ,涵盖 了 编 
译 器 开 友 方面 最 新 进展 。 每 草 中 部 提供 了 大 量 的 实例 及 参考 文献 。 


本 书 是 编译 原理 访 程 方面 的 经 典 教材 ， 内 容 丰 晤 ， 适 合作 为 蜗 等 院 
校 计算 机 及 相关 专业 本 科 生 及 研究 生 的 编译 原理 课程 的 教材 ， 也 是 广大 
技术 人 员 的 极 佳 参考 读物 。 





译 者 序 


绝 大 部 分 软件 是 使 用 高 级 程序 设计 语言 来 编写 的 。 用 这 些 语言 编写 
的 软件 必须 经 过 编译 占 的 编译 ， 才 能 转换 为 可 以 在 计算 机 上 运行 的 机 器 
代码 。 编 译 强 所 生成 代码 的 正确 性 和 质量 会 直接 影响 成 二 上 万 个 软件 。 
因此 ， 编 译 器 构造 原理 和 技术 是 计算 机 科学 技术 领域 中 的 一 个 非常 重要 
的 组 成 部 分 。 不 仅 如 此 ， 编 译 技 术 在 当前 已 经 广泛 应 用 于 编译 圳 构造 之 
外 的 其 他 领域 ， 比 如 程序 分 析 / 验 证 、 模 型 转换 、 语 言 处 理 等 领域 。 因 
此 ， 虽 然 大 部 分 读者 不 会 参与 设计 商用 编译 器 ， 但 拥有 编译 的 相关 知识 
仍然 会 对 他 们 的 研究 开发 生涯 产生 有 益 的 影响 。 


A.V.Aho 等 人 撰写 的 《Compilers: Principles，Techniques，and 
Tools》 被 誉 为 编译 教科 书 中 的 “ 龙 书 ”。 这 说 明 这 本 书 具 有 很 高 的 权威 
性 。 我 们 有 笠 受 机 械 工 业 出 版 社 的 委托 ， 翻 译 龙 书 的 第 2 版 。 


本 书 不 仅 包 含 了 词法 分 析 、 语 法 分 析 、 语 义 分 析 、 代 码 生 成 等 传 
统 、 经 典 的 编译 知识 ， 还 详细 介绍 了 一 些 最 新 研究 成 果 ， 比 如 过 程 间 指 
针 分 析 的 最 新 进展 。 这 使 得 本 书 不 仅 适 用 于 编译 原理 的 初学 者 ， 还 可 以 
作为 研究 人 员 的 参考 书目 。 本 书 不 仅 介 绍 编译 器 构造 的 基本 诛 理 和 反 
术 ， 还 详细 介绍 一 些 有 用 的 编译 器 构造 工具 ， 比 如 对 Lex 和 Yacc 的 介绍 
使 得 读者 可 以 了 解 这 些 工具 的 工作 原理 和 使 用 方法 。 除 此 之 外 ， 读 者 还 
可 以 看 到 很 多 其 他 领域 的 概念 在 编译 器 构造 中 的 应 用 。 比 如 在 第 9 章 ， 
读者 可 以 看 到 群 论 中 的 抽象 概念 " 格 ?被 完 类 地 应 用 于 数据 流 分 析 算 法 的 
设计 。 而 在 第 11 瘟 ， 线 性 规划 和 整数 规划 技术 被 成 功 地 应 用 于 程序 并 行 
化 技术 。 这 些 内 容 对 拓展 读者 的 视野 和 思路 有 很 大 的 好 处 。 


由 于 本 书 才 盖 的 范围 非 第 广 ， 不 可 能 在 一 个 学 期 内 讲 完 本 书 的 全 部 
内 容 。 因 此 我 建议 采用 本 书 作为 本 科 生 教材 的 老师 只 选择 讲授 其 中 的 基 
础 部 分 ， 即 第 1 章 到 第 9 章 中 的 大 部 分 内 容 。 第 2 章 是 对 后 面 各 章 内 容 的 
介绍 ， 可 以 在 讲授 相应 内 容 之 前 指导 学 生 预 习 。 

最 后 感谢 机 械 工 业 出 版 社 的 温 莉 廊 女 十 以 及 姚 恤 和 和 朱 动 两 位 编辑 在 
本 书 的 翻译 过 程 中 给 予 我 们 的 有 力 帮 助 ， 也 感谢 其 他 给 予 我 们 文 持 的 同 
事 。 由 于 水 平 有 限 ， 翻 译 中 的 错漏 之 处 在 所 难免 ， 欢 迎 读者 批评 指正 。 
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方 午 二 = 
腹 吉 


从 本 书 的 1986 版 出 版 到 现在 ， 编 译 器 设计 领域 已 经 发 生 了 很 大 的 改 
变 。 随 着 程序 设计 语言 的 发 展 ， 提 出 了 新 的 编译 问题 。 计 算 机 体系 结构 
提供 了 多 种 多 样 的 资源 ， 而 编译 器 设计 者 必须 能 够 充分 利用 这 些 资 源 。 
最 有 意思 的 事情 可 能 是 ， 古 老 的 代码 优化 技术 已 经 在 编译 器 之 外 找到 了 
新 的 应 有 用。 现在， 有些 工具 利用 这 些 技术 来 寻找 软件 中 的 缺陷 ， 以 及 
(最 重要 的 是 ) 寻找 现 有 代码 中 的 安全 漏洞 。 而 且 ， 很 多 “前 端 ” 技 术 
人 仍然 被 
广泛 应 用 。 


因此 ， 本 书 先前 的 版 本 所 体现 的 我 们 的 价值 观 一 直 没 有 改变 。 我 们 
知道 ， 只 有 很 少 的 读者 将 会 去 构建 甚至 维护 一 个 主流 程序 设计 语言 的 编 
译 器 。 但 是 ， 和 编译 器 相关 的 模型 、 理 论 和 算法 可 以 被 应 用 到 软件 设计 
和 开发 中 出 现 的 各 种 各 样 的 问题 上 。 因 此 ， 我 们 会 关注 那些 在 设计 一 个 
en 
竟 是 什么 。 

















使 用 本 书 


要 学 完 本 书 的 全 部 或 大 部 分 内 容 全 少 需 要 两 个 学 季 (quarter) ， 甚 
至 两 个 学 期 (semester) 册 。 通 常会 在 一 门 本 科 课 程 中 讲授 本 书 的 前 半 
部 分 内 容 ， 而 本 书 的 后 半 部 分 (强调 代码 优化 〉 会 在 研究 生 层 面 或 另 一 
门 小 范围 的 课程 中 讲授 。 下 面 是 各 章 的 概要 介绍 : 


。 第 1 章 给 出 一 些 关 于 学 习 动 机 的 资料 ， 同 时 也 将 给 出 一 些 关 于 计算 
机 体系 结构 和 程序 设计 语言 原则 的 背景 知识 。 

。 第 2 章 会 开 及 一 个 小 型 的 编译 器 ， 并 介绍 很 多 重要 概念 。 这 些 概念 

将 在 后 面 的 各 章 中 深入 介绍 。 这 个 编译 器 本 吴 将 在 附录 中 给 出 。 

第 3 章 将 讨论 词法 分 析 、 正 则 表达 式 、 有 穷 状态 上 自动 机 和 词法 分 析 

器 的 生成 器 工具 。 这 些 内 容 是 各 种 文本 处 理 的 基础 。 

。 第 4 章 将 讨论 主流 的 语法 分 析 方 法 ， 包 括 目 项 网 下 方法 《递归 下 降 
法 、LL 技 术 ) 和 目 底 同上 方法 〈LR 技 术 和 它 的 变 体 ) 。 

。 第 5 章 将 介绍 语法 制导 定义 和 语法 制导 翻译 的 基本 思想 。 














。 第 6 章 将 使 用 第 5 章 中 的 理论 ， 并 说 明 如 何 使 用 这 些 理论 为 一 个 典型 
的 程序 设计 语言 生成 中 间 代 码 。 

ee 
儿 制 |。 

。 第 8 章 将 主要 讨论 目标 代码 生成 技术 。 该 章 会 讨论 基本 块 的 构造 ， 

从 表达 式 和 基本 块 生成 代码 的 方法 ， 以 及 寄存 器 分 配 技术 。 

第 9 章 将 介绍 代码 优化 技术 ， 包 括 流 图 、 数 据 流 分 析 框 架 以 及 求解 

这 些 框架 的 迭代 算法 。 

第 10 章 将 讨论 指令 级 优化 。 该 章 的 重点 是 从 小 段 指令 代码 中 抽取 并 

行 性 ， 并 在 那些 可 以 同时 做 多 件 事 情 的 单 处 理 右 上 调度 这 些 指令 。 

。 第 11 章 将 介绍 大 规模 并 行 性 的 检测 和 利用 。 这 里 的 重点 是 数值 计算 
代码 。 这 些 代 码 具 有 对 多 维 数 组 进行 电 历 的 紧 致 循环 。 

。 第 12 章 将 介绍 过 程 间 分 析 技 术 。 它 将 讨论 指针 分 析 、 别 名 和 数据 流 
0 0 
列 。 


哥伦比亚 大 学 、 哈 佛 大 学 、 斯 坦 福 大 学 已 经 开设 了 讲授 本 书 内 容 的 
课程 。 哥 伦比 亚 大 学 定期 开设 一 门 关 于 程序 设计 语言 和 翻译 器 的 课程 ， 
使 用 了 本 书 前 8 章 的 内 容 。 该 课程 常年 面向 高 年 级 本 科 生 /一 年 级 研究 生 
讲授 ， 这 门 课程 的 亮点 是 一 个 长 达 一 个 学 期 的 课程 实践 项 目 。 在 该 项 目 
中 ， 学 生 分 成 小 组 ， 创 建 并 实现 一 个 他 们 自己 设计 的 小 型 语言 。 学 生 创 
建 的 语言 涉及 多 个 应 用 领域 ， 包 括 量子 计算 、 音 乐 合成 、 计 算 机 图 形 
学 、 游 戏 、 和 矩阵 运算 和 很 多 其 他 领域 。 在 构建 他 们 自己 的 编译 器 时 ， 学 
生 们 使 用 了 很 多 种 可 以 生成 编译 器 组 件 的 工具 ， 比 如 ANTLR、Lex 和 
Yacc; 他 们 还 使 用 了 第 2 章 和 第 5 章 中 讨论 的 语法 制导 翻译 技术 。 后 续 的 
研究 生 课程 的 重点 是 本 书 第 9 章 到 第 12 章 的 内 容 ， 着 重 强 调适 用 于 当代 
0 300550. 






































斯 坦 福 大 学 开设 了 一 门 历时 一 个 学 季 的 入 门 课程 ， 大 致 涵盖 了 本 书 
第 1 章 到 第 8 章 的 内 容 ， 同 时 还 会 简介 本 书 第 9 章 中 全 局 代码 优化 的 相关 
内 容 。 第 二 门 编译 器 课程 包括 本 书 第 9 章 到 第 12 章 的 内 容 ， 另 外 还 包括 
第 7 章 中 更 为 深入 的 有 关 垃 圾 收集 的 内 容 。 学 生 使 用 一 个 该 校 开发 的 、 
基于 Java 的 系统 Joeq 来 实现 数据 流 分 析 算 法 。 














预备 知识 


学 习 本 书 的 读者 应 该 拥有 一 些 “ 计 算 机 科学 的 综合 知识 ”， 至 少 学 过 
两 门 程序 设计 课程 ， 以 及 数据 结构 和 离散 数学 的 课程 。 具 备 多 种 程序 设 
计 语 言 的 知识 对 学 习 本 书 会 有 所 帮助 。 


练习 


本 书包 含 内 容 三 泛 的 练习 ， 几 平 每 一 节 都 有 一 些 练习 。 我 们 用 感叹 
号 来 表示 较 难 的 练习 或 练习 中 的 一 部 分 。 难 度 最 大 的 练习 有 两 个 感叹 


号 
万 维 网 上 的 文 持 


在 本 书 的 主页 (http://dragonbook.stanford.edu) 外 上 可 以 找到 本 书 
已 知 错误 的 勘误 表 以 及 一 些 文 持 性 资料 。 我 们 希望 将 我 们 讲授 的 每 一 门 
与 编译 器 相关 的 谍 程 的 可 用 讲义 〈 包 括 家 庭 作 业 、 答 案 和 练习 等 ) 都 提 
由 一 些 重要 编译 器 的 作者 撰写 的 关于 这 些 编 译 
器 的 描述 。 
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月 ， 原 则 上 是 上 3 个 quarter 修 一 个 quarter 的 假 ; 而 后 者 则 类 似 我 国 国 
内 的 案 署 假 制 的 大 学 学 制 ， 大 概 4 个 月 一 个 semester 。 一 一 编辑 注 


[21 读 者 可 以 从 http://infolab. stanford. edu/~ 
ullman/dragon/errata.html 找 到 本 书 的 勘误 表 ， 并 可 以 从 
http://infolab. stanford. edu/~ul lman/dragon. html 处 找到 本 书 的 一 
些 支持 资料 。 


第 1 章 引 论 


程序 设计 语言 是 同人 以 及 计算 机 描述 计算 过 程 的 记号 。 如 我 们 所 
知 ， 这 个 世界 依赖 于 程序 设计 语言 ， 因 为 在 所 有 计算 机 上 运行 的 所 有 软 
件 都 是 用 某 种 程序 设计 语言 编写 的 。 但 是 ， 在 一 个 程序 可 以 运行 之 前 ， 
它 首 先 需要 被 翻译 成 一 种 能 够 被 计算 机 执行 的 形式 。 


完成 这 项 翻译 工作 的 软件 系统 称 为 编译 器 (compiler) 。 


本 书 介绍 的 是 设计 和 实现 编译 器 的 方法 。 我 们 将 介绍 用 于 构建 面向 
多 种 语言 和 机 顺 的 翻译 需 的 一 些 基 本 思想 。 编 译 器 设计 的 原理 和 技术 还 
可 以 用 于 编译 器 设计 之 外 的 众多 领域 。 因 此 ， 这 些 原 理 和 技术 通常 会 在 
一 个 计算 机 科学 家 的 职业 生涯 中 多 次 被 用 到 。 研 究 编 译 器 的 编写 将 涉及 
程序 设计 语言 、 计 算 机 体系 结构 、 形 式 语言 理论 、 算 法 和 软件 工程 。 


在 本 章 中 ， 我 们 将 介绍 语言 翻译 需 的 不 同形 式 ， 在 高 层次 上 概述 一 
个 典型 编译 器 的 结构 ， 并 讨论 了 程序 设计 语言 和 硬件 体系 结构 的 发 展 趋 
势 。 这 些 趋 势 将 影响 编译 器 的 形式 。 我 们 还 将 介绍 关于 编译 器 设计 和 计 
算 机 科学 理论 的 关系 的 一 些 事实 ， 并 给 出 编译 技术 在 编译 领域 之 外 的 一 
些 应 用 。 最 后 ， 我 们 将 简 早 论述 在 我 们 研究 编译 费时 需要 用 到 的 重要 的 
程序 设计 语言 概念 。 





11 傅 宫 业 理 多 


( 





简单 地 说 ， 一 个 编译 器 就 是 一 个 程序 





， 它 可 以 阅读 以 茶 一 种 语言 
源 语言 编写 的 程序 ， 并 把 该 程序 翻译 成 为 一 个 等 价 的 、 用 男 一 种 语 
告 它 在 翻译 过 程 中 发 现 的 源 程序 中 的 错误 。 


(目标 语言 ) 编写 的 程序 ， 参 见 图 1-1。 编 译 器 的 重要 任务 之 一 是 报 
源 程序 


编 


译 研 


目标 程序 
图 1-1 一 个 编译 器 
调用 ， 处 理 输入 并 产生 输出 。 参 见 图 1-2， 


如 条目 标 程序 是 一 个 可 执行 的 机 露 语 言 程 序 ， 那 么 它 就 可 以 被 用 户 


输入 一 一 一 | 目标 程序 输出 
图 1-2 ”运行 目标 程序 
解释 器 (interpreter) 是 另 一 种 常见 的 语言 处 理 器 。 它 并 不 通过 翻译 
的 方式 生成 目标 程序 。 从 用 户 的 角度 看 ， 解 释 器 直接 利用 用 户 提 供 的 输 
入 执行 源 程序 中 指定 的 操作 。 参 见 图 1-3。 
源 程 序 解释 器 
输入 


输出 
图 1-3 一 个 解释 器 


在 把 用 户 输 入 映射 成 为 输出 的 过 程 中 ， 由 一 个 编译 器 产生 的 机 器 语 
言 目 标 程序 通常 比 一 个 解释 需 快 很 多 。 然 而 ， 解 释 器 的 错误 诊断 效果 通 
第 比 编译 器 更 好 ， 因 为 它 逐 个 语句 地 执行 源 程序 。 


Java 语 言 处 理 器 结合 了 编译 和 解释 过 程 ， 如 图 1-4 所 示 。 一 个 
Java 汤 程序 首先 被 编译 成 一 个 称 为 字 节 码 (bytecode〉 的 中 间 表 示 形 
式 。 然 后 由 一 个 虚拟 机 对 得 到 的 字 节 码 加 以 解释 执行 。 这 样 安排 的 好 处 
之 一 是 在 一 台 机 器 上 编译 得 到 的 字 节 码 可 以 在 另 一 台 机 器 上 解释 执行 。 
通过 网 络 就 可 以 完成 机 器 之 间 的 迁移 。 








源 程序 





中 间 程 序 一 一 > 


图 1-4 一 个 混合 编译 器 


为 了 更 快 地 完成 输入 到 输出 的 处 理 ， 有 些 被 称 为 即时 (just in 
time) 编译 器 的 Java 编 译 器 在 运行 中 间 程 序 人 处 理 输 入 的 前 一 刻 首 先 把 字 
节 人 码 翻 译 成 为 机 器 语言 ， 然 后 再 执行 程序 。 


如 图 1-5 所 示 ， 除 了 编译 器 之 外 ， 创 建 一 个 可 执行 的 目标 程序 还 需 
要 一 些 其 他 程序 。 一 个 源 程序 可 能 被 分 割 成 为 多 个 模块 ， 并 存放 于 独立 
的 文件 中 。 把 源 程序 聚合 在 一 起 的 任务 有 时 会 由 一 个 被 称 为 预 处 理 器 
(preprocessor) 的 程序 独立 完成 。 预 处 理 器 还 负责 把 那些 称 为 宏 的 缩写 
形式 转换 为 源 语言 的 语句 。 




















源 程序 
预 处 理 器 
经 过 预 处 理 的 源 程序 
编译 器 
目标 汇编 程序 


可 重 定位 机 器 代 码 


__ 库 文件 
可 重 定位 对 象 文件 


链接 粥 /加 载 织 





目标 机 红 代 码 


图 1-5 一 个 语言 处 理 系统 


然后 ， 将 经 过 预 处 理 的 源 程序 作为 输入 传递 给 一 个 编译 嚣 。 编 译 右 
可 能 产生 一 个 汇编 语言 程序 作为 其 输出 ， 因 为 汇编 语言 比较 容易 输出 和 
调试 。 接 着 ， 这 个 汇编 语言 程序 由 称 为 汇编 器 (assembler) 的 程序 进行 
处 理 ， 并 生成 可 重 定 位 的 机 器 代码 。 


大 型 程序 经 党 被 分 成 多 个 部 分 进行 编译 ， 因 此 ， 可 重 定 位 的 机 器 代 
码 有 必要 和 其 他 可 重 定 位 的 目标 文件 以 及 库 文件 连接 到 一 起 ， 形 成 真正 
在 机 器 上 运行 的 代码 。 一 个 文件 中 的 代码 可 能 指向 男 一 个 文件 中 的 位 
置 ， 而 链接 器 (linker〉 能 够 解决 外 部 内 存 地 址 的 问题 。 最 后 ， 加 载 器 
(loader) 把 所 有 的 可 执行 目标 文件 放 到 内 存 中 执行 。 


























1.1 节 的 练习 


练习 1.1.1: 编译 器 和 解释 器 之 间 的 区 别 是 什么 ? 


练习 1.1.2: 编译 器 相对 于 解释 器 的 优点 是 什么 ?解释 占 相 对 于 编译 
器 的 优点 是 什么 ? 

练习 1.1.3: 在 一 个 语言 处 理 系 统 中 ， 编 译 器 产生 汇编 语言 而 不 是 机 
器 语言 的 好 处 是 什么 ? 

练习 1.1.4: 把 一 种 高 级 语言 翻译 成 为 男 一 种 高 级 语言 的 编译 占 称 为 
源 到 源 〈source-to-source) 的 翻译 器 。 编 译 器 使 用 C 语 言 作为 日 标语 言 
有 什么 好 处 ? 


练习 1.1.5: 描述 一 下 汇编 器 所 要 完成 的 一 些 任务 。 








1.2 一 个 编译 右 的 结构 


到 现在 为 止 ， 我 们 把 编译 器 看 作 一 个 黑人 盒子， 它 能 够 把 源 程序 映 冉 
为 在 语义 上 等 价 的 目标 程序 。 如 果 把 这 个 盒子 稍微 打开 一 点 ， 我 们 就 会 
看 到 这 个 映射 过 程 由 两 个 部 分 组 成 : 分 析 部 分 和 综合 部 分 。 


分 析 〈analysis) 部 分 把 源 程 序 分 解 成 为 多 个 组 成 要 素 ， 并 在 这 些 
要 素 之 上 加 上 语法 结构 。 然 后 ， 它 使 用 这 个 结构 来 创建 该 源 程序 的 一 个 
中 间 表 示 。 如 果 分 析 部 分 检查 出 源 程序 没有 按照 正确 的 语法 构成 ， 或 者 
语义 上 不 一 致 ， 它 就 必须 提供 有 用 的 信息 ， 使 得 用 户 可 以 按 此 进行 改 
正 。 分 析 部 分 还 会 收集 有 关 源 程序 的 信息 ， 并 把 信息 存放 在 一 个 称 为 符 
号 表 (symbol table) 的 数据 结构 中 。 符 号 表 将 和 中 间 表 示 形 式 一 起 传送 


给 综合 部 分 。 














综合 (synthesis〉 部 分 根据 中 间 表 示 和 符号 表 中 的 信息 来 构造 用 户 
期 符 的 目标 程序 。 分 析 部 分 经 党 被 称 为 编译 器 的 前 端 (front end) ， 而 
综合 部 分 称 为 后 端 (back end) 。 


如 果 我 们 更 加 详细 地 研究 编译 过 程 ， 会 发 现 它 顺序 执行 了 一 组 步 又 
(phase) 。 每 个 步骤 把 源 程序 的 一 种 表示 方式 转换 成 为 一 种 表示 方 
式 。 一 个 典型 的 把 编译 程序 分 解 成 为 多 个 步骤 的 方式 如 图 1-6 所 示 。 在 
实践 中 ， 多 个 步 又 可 能 被 组 合 在 一 起 ， 而 这 些 组 合 在 一 起 的 步骤 之 间 的 
中 间 表 示 不 需要 被 明确 地 构造 出 来 。 存 放 整 个 源 程序 的 信息 的 符号 表 可 
由 编 详 器 的 各 个 步骤 使 用 。 














字符 流 


词法 分 析 器 


符号 流 


语法 树 


语法 树 


符号 表 中 间 代 码 生 成 器 


中 间 表 示 形 式 


机 器 无 关 代 码 优化 器 


中 间 表 示 形 式 


代码 生成 器 


目标 机 器 语言 


机 器 相关 代码 优化 器 


目标 机 器 语言 
1 
图 1-6 一 个 编译 器 的 各 个 步骤 


有 些 编译 霹 在 前 端 和 后 端 之 间 有 一 个 与 机 器 无 关 的 优化 步 又。 这 个 
优化 步骤 的 目的 是 在 中 间 表 示 之 上 进行 转换 ， 以 便 后 端 程序 能 够 生成 更 
好 的 目标 程序 。 如 条 基于 未 经 过 此 优化 步骤 的 中 间 表 示 来 生成 代码 ， 则 
代码 的 质量 会 受到 影响 。 因 为 优化 是 可 选 的 ， 所 以 图 1-6 中 所 示 的 两 个 
优化 步骤 之 一 可 以 被 省 略 。 














1.2.1 词法 分 析 


编译 器 的 第 一 个 步骤 称 为 词法 分 析 〈]lexical analysis) 或 扫描 
Cscanning) 。 词 法 分 析 器 读 入 组 成 源 程序 的 字符 流 ， 并 且 将 它们 组 织 
成 为 有 意义 的 词素 (lexeme) 的 序列 。 对 于 每 个 词素 ， 词 法 分 析 器 产生 
如 下 形式 的 词法 单元 (token) 作为 输出 : 





(token-name，attribute-valuey》 


这 个 词法 单元 被 传送 给 下 一 个 步骤 ， 即 语法 分 析 。 在 这 个 词法 单元 
中 ， 第 一 个 分 量 token-name 是 一 个 由 语法 分 析 步 又 使 用 的 抽象 符 写 ， 而 
第 二 个 分 量 attribute-value 指 同人 符 号 表 中 关于 这 个 词法 单元 的 条 目 。 符 号 
表 条 目的 信息 会 被 语义 分 析 和 代码 生成 步骤 使 用 。 


比如 ， 假 设 一 个 源 程序 包含 如 下 的 赋值 语句 


position = initial + rate * 60 (1. 1 ) 





这 个 赋值 语句 中 的 字符 可 以 组 合成 如 下 词素 ， 并 映射 成 为 如 下 词法 
单元 。 这 些 词法 单元 将 被 传递 给 语法 分 析 阶 段 。 

1) position 是 一 个 词素 ， 被 映射 成 词法 单元 《id，1》 ， 其 中 id 是 
表示 标识 符 (identifier〉 的 抽象 符号 ， 而 1 指向 符号 表 中 position 对 应 的 
条 目 。 一 个 标识 符 对 应 的 符号 表 条 目 存 放 该 标识 符 有 关 的 信息 ， 比 如 它 
的 名 字 和 类 型 。 

2) 赋值 符号 = 是 一 个 词素 ， 被 映射 成 词法 单元 (=〉 。 因 为 这 个 词 
法 单元 不 需要 属性 值 ， 所 以 我 们 省 略 了 第 二 个 分 量 。 也 可 以 使 用 assign 
这 样 的 抽象 符号 作为 词法 单元 的 名 字 ， 但 是 为 了 标记 上 的 方便 ， 我 们 选 
择 使 用 词素 本 身 作为 抽象 符号 的 名 字 。 


3) initial 是 一 个 词素 ， 被 映射 成 词法 单元 ‘id，2〉， 其 中 2 指 
向 initial 对 应 的 符号 表 条 目 。 


4) + 是 一 个 词素 ， 被 映射 成 词法 单元 〈+》。 


5) rate 是 一 个 词素 ， 被 映射 成 词法 单元 (id，3; ， 其 中 3 指 疝 rate 
对 应 的 符号 表 条 目 。 


6) “* 是 一 个 词素 ， 被 映射 成 词法 单元 (*) 。 
7) 66 是 一 个 词素 ， 被 映射 成 词法 单元 〈60》 也 。 
分 隔 词 素 的 空格 会 锐 词 法 分 析 右 忽略 掉 。 














图 1-7 给 出 经 过 词法 分 析 之 后 ， 赋 值 语句 1.1 被 表示 成 如 下 的 词法 单 
元 序列 : 


(id, 1) (=) (id, 2 (+) (id, 3) (*) 《60) (1.2) 


position = initial + rate * 60 


| 词法 分 析 器 | 


(id, 1) (=) (id, 2) (+) (id, 3) (*) (60) 


语法 分 析 器 





; 十 

| (42 + 

2 initial | (id,3) 60 
3 [rate | 

二 SS 
符号 表 mW Ed 
(id,37 inttofloat 
| 


60 
中 间 代 码 生 成 器 


tl = inttofloat (60) 
t2 = id3 * 七 1 

t3 = id2 + t2 

idl = t3 


代码 优化 器 


tl = id3 + 60.0 
idi = id2 + t1 


代码 生成 器 


LDF R2, id3 

MULF R2, R2, #60.0 
LDF R1i, id2 

ADDF Ri, Ri1i, R2 
STF idi, R1 


图 1-7 一 个 赋值 语句 的 翻译 


在 这 个 表示 中 ， 词 法 单元 名 =、+ 和 *# 分 别 是 表示 赋值 、 加 法 运算 
符 、 乘 法 运算 符 的 抽象 符号 。 


122 请 法 分 析 


编译 器 的 第 2 个 步骤 称 为 语法 分 析 (syntax analysis) 或 解析 
Cparsing) 。 语 法 分 析 器 使 用 由 词法 分 析 器 生成 的 各 个 词法 单元 的 第 一 
个 分 量 来 创建 树 形 的 中 间 表 示 。 该 中 间 表 示 给 出 了 词法 分 析 产 生 的 词法 
单元 流 的 语法 结构 。 一 个 常用 的 表示 方法 是 语法 树 (syntax tree) ， 树 
中 的 每 个 内 部 结 点 表示 一 个 运算 ， 而 该 结 点 的 子 结 点 表示 该 运算 的 分 
人 词法 单元 流 〈1.2) 对 应 的 语法 树 被 显示 为 语法 分 析 器 
J 有 惠 吊 。 


这 标 树 显示 了 赋值 语句 


position = initial + rate * 60 


中 各 个 运算 的 执行 顺序 。 这 株 树 有 一 个 标号 为 * 的 内 部 结 点 ，<id，3> 是 
它 的 左 子 结 态 ， 整 数 60 是 它 的 右 子 结 点 。 结 点 <id，3> 表 示 标 识 

符 rate。 标 号 为 * 的 结 点 指明 了 我 们 必须 首先 把 rate 的 值 与 60 相 乘 。 标 
号 为 + 的 结 点 表明 我 们 必须 把 相 乘 的 结果 和 :initial 的 值 相 加 。 这 棵 树 的 
根 结 点 的 标号 为 =， 它 表明 我 们 必须 把 相 加 的 结果 存储 到 标识 

符 position 对 应 的 位 置 上 去 。 这 个 运算 顺序 和 通常 的 算术 规则 相同 ， 即 
乘法 的 优先 级 高 于 加 法 ， 因 此 乘法 应 该 在 加 法 之 前 计算 。 


编译 器 的 后 续 步 骤 使 用 这 个 语法 结构 来 帮助 分 析 源 程序 ， 并 生成 目 
标 程 序 。 在 第 4 章 ， 我 们 将 使 用 上 下 文 无 关 文 法 来 描述 程序 设计 语言 的 
语法 结构 ， 并 讨论 为 菜 些 类 型 的 语法 上 自动 构 造 高 效 语法 分 析 器 的 算法 。 
在 第 2 章 和 第 5 章 ， 我 们 将 看 到 ， 语 法 制导 的 定义 将 有 助 于 描述 对 程序 设 
计 语 言 结构 的 翻译 。 




















L233 语义 分 析 


语义 分 析 器 (semantic analyzer) 使 用 语法 树 和 符号 表 中 的 信息 来 检 
得 源 程序 是 否 和 语言 定义 的 语义 一 致 。 它 同时 也 收集 类 型 信息 ， 并 把 这 
些 信息 存放 在 语法 树 或 符号 表 中 ， 以 便 在 随后 的 中 间 代 码 生 成 过 程 中 使 
用 。 








语义 分 析 的 一 个 重要 部 分 是 类 型 检查 (type checking) 。 编 译 右 检 
得 每 个 运算 符 是 否 具 有 匹配 的 运算 分 量 。 比 如 ， 很 多 程序 设计 语言 的 定 
义 中 要 求 一 个 数组 的 下 标 必 须 是 整数 。 如 果 用 一 个 浮 点 数 作为 数组 下 








标 ， 编 译 器 就 必须 报告 错误 。 


程序 设计 语言 可 能 允许 某 些 类 型 转换 ， 这 被 称 为 自动 类 型 转换 
(coercion) 。 比 如 ， 一 个 二 元 算术 运算 符 可 以 应 用 于 一 对 整数 或 者 一 
对 浮 点 数 。 如 果 这 个 运算 符 应 用 于 一 个 浮 点 数 和 一 个 整数 ， 那 么 编译 右 
可 以 把 该 整数 转换 (或 者 说 自动 类 型 转换 ) 成 为 一 个 浮 点 数 。 


图 1-7 中 显示 了 一 个 这 样 的 目 动 类 型 转换 。 假 设 position、initial 
和 rate 已 被 声明 为 浮上 点数 类 型 ， 而 词素 60 本 刁 形 成 一 个 整数 。 几 1-7 中 
的 i 吾 义 分 析 器 的 类 型 检查 程序 友 现 运算 符 * 被 用 于 一 个 浮 点 数 rate 和 一 
个 整数 60。 在 这 种 情况 下 ， 这 个 整数 可 以 被 转换 成 为 一 个 浮 点 数 。 请 注 
意 ， 在 图 1-7 中 ， 语 义 分 析 器 输出 中 有 一 个 关于 运算 符 inttofloat 的 额外 
结 点 。inttofloat 明 确 地 把 它 的 整数 参数 转换 为 一 个 浮 点 数 。 类 型 检查 和 
语义 分 析 将 在 第 6 章 中 讨论 。 


1.2.4 中 间 代 码 生 成 





在 把 一 个 源 程序 翻译 成 目标 代码 的 过 程 中 ， 一 个 编译 圳 可 能 构造 出 
一 个 或 多 个 中 间 表 示 。 这 些 中 间 表 示 可 以 有 多 种 形式 。 语 法 树 是 一 种 中 
间 表 示 形 式 ， 它 们 通常 在 语法 分 析 和 语义 分 析 中 使 用 。 


在 源 程序 的 语法 分 析 和 语义 分 析 完 成 之 后 ， 很 多 编译 器 生成 一 个 明 
确 的 低级 的 或 类 机 器 语言 的 中 间 表 示 。 我 们 可 以 把 这 个 表示 看 作 是 菏 个 
抽象 机 器 的 程序 。 该 中 间 表 示 应 该 具有 两 个 重要 的 性 质 : 它 应 该 易于 生 
成 ， 且 能 够 被 轻松 地 翻译 为 目标 机 器 上 的 语言 。 


在 第 6 章 ， 我 们 将 考虑 一 种 称 为 三 地 址 代码 (three-address code) 的 
中 间 表 示 形 式 。 这 种 中 间 表 示 由 一 组 类 似 于 汇编 语言 的 指令 组 成 ， 每 个 
指令 具有 三 个 运算 分 量 。 每 个 运算 分 量 都 像 一 个 寄存 器 。 图 1-7 中 的 中 
间 代 码 生 成 器 的 输出 是 如 下 的 三 地 址 代码 序列 : 














tl = inttofloat(60) 
t2 = id3 * 七 1 

t3 = id2 + t2 

idl = t3 


(1.3) 











关于 三 地 址 指令 ， 有 几 点 是 值得 专门 指出 的 。 首 先 ， 每 个 三 地 址 赋 











值 指 令 的 右 部 最 多 只 有 一 个 运算 符 。 因 此 这 些 指令 确定 了 运算 完成 的 顺 
序 。 在 源 程 序 1.1 中 ， 乘 法 应 该 在 加 法 之 前 完成 。 第 二 ， 编 译 器 应 该 生 
成 一 个 临时 名 字 以 存放 一 个 三 地 址 指令 计算 得 到 的 值 。 第 三 ， 有 些 三 地 
址 指令 的 运算 分 量 的 少 于 三 个 《比如 上 面 的 序列 1.3 中 的 第 一 个 和 最 后 


下 | 人) 





在 第 6 章 ， 我 们 将 讨论 在 不 同 编译 器 中 用 到 的 主要 中 间 表 示 形 式 。 
第 5 章 将 介绍 语法 制导 翻译 技术 。 这 些 技术 在 第 6 章 中 被 用 于 处 理 典 型 程 
序 设 计 语 言 构造 进行 类 型 检查 和 中 间 代 码 生 成 。 这 些 程序 设计 语言 构造 
包括 : 表达 式 、 控 制 流 构造 和 过 程 调用 。 








125 代码 优化 


机 融 无 关 的 代码 优化 步骤 试图 改进 中 间 人 代码， 以 便 生 成 更 好 的 目标 
代码 。“ 更 好 ” 通 第 意味 着 更 快 ， 但 是 也 可 能 会 有 其 他 目标 ， 如 更 短 的 或 
能 耗 更 低 的 目标 代码 。 比 如 ， 一 个 简单 直接 的 算法 会 生成 中 间 代码 
(1.3) 。 它 为 由 语义 分 析 喜 得 到 的 树 形 中 间 表 示 中 的 每 个 运算 符 都 使 


用 一 个 相仿 


使 用 一 个 简单 的 中 间 代 码 生成 算法 ， 然 后 再 进行 代码 优化 步骤 是 生 
成 优质 目标 代码 的 一 个 合理 方法 。 优 化 占 可 以 得 出 结论 : 把 60 从 整数 转 
换 为 浮 点 数 的 运算 可 以 在 编译 时 刻 一 荔 永 逸 地 完成 。 因 此 ， 用 浮 点 数 
60.0 来 蔡 代 整数 60 就 可 以 消除 相应 的 inttofloat 运 算 。 而 且 ，ts 仅 被 使 用 
一 次 ， 用 来 把 它 的 值 传递 给 id1。 因 此 ， 优 化 右 可 以 把 序列 〈1.3) 转换 
为 更 短 的 指令 序列 


tl = id3 * 60.0 
idi = id2 + tl 


不 同 的 编译 器 所 做 的 代码 优化 工作 量 相差 很 大 。 那 些 优化 工作 做 得 
最 多 的 编译 器 ， 即 所 谓 的 “优化 编译 器 ?， 会 在 优化 阶段 伦 相 当 多 的 时 
间 。 有 些 简单 的 优化 方法 可 以 极 大 地 提高 目标 程序 的 运行 效率 而 不 会 过 
nn 





(1.4) 





1.2.6 ”代码 生成 


代码 生成 喜 以 源 程序 的 中 间 表 示 形 式 作为 输入 ， 并 把 它 映 射 到 目标 
语言 。 如 果 目 标语 言 是 机 器 代码 ， 那 么 就 必须 为 程序 使 用 的 每 个 变量 选 
择 寄 存 器 或 内 存 位 置 。 然 后 ， 中 间 指 令 被 翻译 成 为 能 够 完成 相同 任务 的 
0 
放 变 量 的 值 。 


比如 ， 使 用 寄存 器 R1 和 R2，〈1.4) 中 的 中 间 代 码 可 以 被 翻译 成 为 如 
下 的 机 器 代码 : 


LDF R2, id3 

MULF R2, R2, #60.0 

LDF R1， id2 (1.5) 
ADDF R1, R1, R2 

STF idi, Ri 


每 个 指令 的 第 一 个 运算 分 量 指定 了 一 个 目标 地 址 。 各 个 指令 中 的 F 
告诉 我 们 它 处 理 的 是 浮 点 数 。 代 码 〈1.5) 把 地 址 ids 中 的 内 容 加 载 到 寄 
存 器 R2 中 ， 然 后 将 其 与 浮 点 常数 60.0 相 乘 。 井 号 “#” 表 示 60.0 应 该 作为 一 
个 立即 数 处 理 。 第 三 个 指令 把 id2 移 动 到 寄存 器 R11 中， 而 第 四 个 指令 把 
前 面 计算 得 到 并 存放 在 R2 中 的 值 加 到 R11 上。 最 后 ， 在 寄存 器 Ri 中 的 值 被 
存放 到 id1 的 地 址 中 去 。 这 样 ， 这 些 代 码 正 确 地 实现 了 赋值 语句 
(1.1) 。 第 8 章 将 讨论 代码 生成 。 


上 面 对 代 码 生 成 的 讨论 忽略 了 对 源 程序 中 的 标识 符 进 行 存储 分 配 的 
重要 问题 。 我 们 将 在 第 7 章 中 看 到 ， 运 行 时 刻 的 存储 组 织 方法 依赖 于 被 
en 
I 决定 。 











127 和 时 下 人 


编译 器 的 重要 功能 之 一 是 记录 源 程序 中 使 用 的 变量 的 名 字 ， 并 收集 
和 每 个 名 字 的 各 种 属性 有 关 的 信息 。 这 些 属性 可 以 提供 一 个 名 字 的 存储 
分 配 、 它 的 类 型 、 作 用 域 〈 即 在 程序 的 哪些 地 方 可 以 使 用 这 个 名 字 的 


值 ) 等 信息 。 对 于 过 程 名 字 ， 这 些 信 息 还 包括 : 它 的 参数 数量 和 类 型 、 
每 个 参数 的 传递 方法 《比如 传 值 或 传 引 用 ) 以 及 返回 类 型 。 


符号 表 数据 结构 为 每 个 变量 名 字 创 建 了 一 个 记录 条 目 。 记 录 的 字段 
就 是 名 字 的 各 个 属性 。 这 个 数据 结构 应 该 允许 编译 器 迅速 查找 到 每 个 名 
0 
讨论 。 











1.2.8 将 多 个 步骤 组 合成 趟 


前 面 关 于 步 又 的 讨论 讲 的 是 一 个 编译 器 的 逻辑 组 织 方式 。 在 一 个 特 
定 的 实现 中 ， 多 个 步 又 的 活动 可 以 被 组 合成 一 趟 (pass) 。 每 趟 读 入 一 
个 输入 文件 并 产生 一 个 输出 文件 。 比 如 ， 前 端 步骤 中 的 词法 分 析 、 语 法 
分 析 、 语 义 分 析 ， 以 及 中 间 代 码 生 成 可 以 被 组 合 在 一 起 成 为 一 趟 代码 
> 
口 /机 双 。 


有 些 编译 器 集合 是 围绕 一 组 精心 设计 的 中 间 表 示 形 式 而 创建 的 ， 这 
些 中 间 表 示 形 式 使 得 我 们 可 以 把 特定 语言 的 前 端 和 特定 目标 机 的 后 端 相 
结合 。 使 用 这 些 集 合 ， 我 们 可 以 把 不 同 的 前 端 和 某 个 目标 机 的 后 端 结合 
起 来 ， 为 不 同 的 源 语 言 建立 该 目标 机 上 的 编译 器 。 类 似 地 ， 我 们 可 以 把 
一 个 前 端 和 不 同 的 目标 机 后 端 结合 ， 建 立 针 对 不 同 目标 机 的 编译 器 。 





1.2.9 ”编译 器 构造 工具 


和 任何 软件 开发 者 一 样 ， 写 编译 器 的 人 可 以 充分 利用 现代 的 软件 开 
发 环境 。 这 些 环境 中 包含 了 诸如 语言 编辑 露 、 调 试 器 、 版 本 管理 、 程 序 
描述 器 、 训 试管 理 等 工具 。 除 了 这 些 通 用 的 软件 开发 工具 ， 人 们 还 创建 
了 一 些 更 加 专业 的 工具 来 实现 编译 器 的 不 同 阶段 。 


这 些 工 具 使 用 专用 的 语言 来 描述 和 实现 特定 的 组 件 ， 其 中 的 很 多 工 
具 使 用 了 相当 复杂 的 算法 。 其 中 最 成 功 的 工具 都 能 够 隐藏 生成 算法 的 细 
市 ， 并 且 它 们 生成 的 组 件 易 于 和 编译 器 的 其 他 部 分 相 集 成 。 一 些 常用 的 
编译 占 构 造 工 具 包 括 : 








1) 语法 分 析 器 的 生成 器 : 可 以 根据 一 个 程序 设计 语言 的 语法 描述 
目 动 生成 语法 分 析 嚣 。 


2) 扫描 器 的 生成 器 : 可 以 根据 一 个 语言 的 语法 单元 的 正则 表达 式 
描述 生成 词法 分 析 器 。 

3) 语法 制 手 的 翻译 引擎 : 可 以 生成 一 组 用 于 过 历 分 析 树 并 生成 中 
间 代 码 的 例 程 。 


4) 代码 生成 器 的 生成 器 : 依据 一 组 天 于 如 何 把 中 间 语 言 的 每 个 运 
算 翻 译 成 为 目标 机 上 的 机 器 语言 的 规则 ， 生 成 一 个 代码 生成 器 。 

5) 数据 流 分 析 引 擎 : 可 以 帮助 收集 数据 流 信 息 ， 即 程序 中 的 值 如 
何 从 程序 的 一 个 部 分 传递 到 另 一 部 分 。 数 据 流 分 析 是 代码 优化 的 一 个 重 


要 部 分 。 


6) 编译 器 构造 工具 集 : 提供 了 可 用 于 构造 编译 器 的 不 同 阶段 的 例 
程 的 完整 集合 。 


在 本 书 中 ， 我 们 将 讨论 多 个 这 类 工具 的 例子 。 


1.3 程序 设计 语言 的 发 展 历程 


第 一 台电 子 计算 机 出 现在 20 世 纪 40 年 代 。 它 使 用 由 0、1 序 列 组 成 的 
机 器 语言 编程 ， 这 个 序列 明确 地 告诉 计算 机 以 什么 样 的 顺序 执行 哪些 运 
算 。 运 算 本 身 也 是 很 低层 的 ， 把 数据 从 一 个 位 置 移动 到 另 一 个 位 置 ， 把 
两 个 寄存 器 中 的 值 相 加 ， 比 较 两 个 值 ， 等 等 。 不 用 说 ， 这 种 编程 速度 慢 
且 枯 燥 ， 而 且 容 易 出 错 。 写 出 的 程序 也 是 难以 理解 和 修改 的 。 


1.3.1 十 疝 高 级 程序 设计 语言 





走 问 更 加 人 类 友好 的 程序 设计 语言 的 第 一 步 是 20 节 纪 50 年 代 早期 人 
们 对 助 记 汇编 语言 的 开 发 。 一 开始 ， 一 个 汇编 语言 中 的 指令 仅仅 是 机 器 
旨 令 的 助 记 表 示 。 后 来 ， 宏 指令 被 加 入 到 汇编 语言 中 。 这 样 ， 程 序 员 残 
可 以 通过 宏 指令 为 频繁 使 用 的 机 器 指令 序列 定义 和 市 有 参数 的 缩写 。 


走向 高 级 程序 设计 语言 的 重大 一 步 发 生 在 20 世 纪 50 年 代 的 后 五 年 。 
其 间 ， 用 于 科学 计算 的 Fortran 语 言 ， 用 于 商业 数据 处 理 的 Cobol 语 言 和 
用 于 符号 计算 的 Lisp 语 言 被 开发 出 来 。 在 这 些 语言 的 基本 原理 是 设计 高 
层次 表示 方法 ， 使 得 程序 员 可 以 更 加 容易 地 写 出 数值 计算 、 商 业 应 用 和 
符号 处 理 程序 。 这 些 语 言 取得 了 很 大 的 成 功 ， 至 今 仍然 有 人 使 用 它们 。 


在 接 下 来 的 几 十 年 里 ， 很 多 市 有 新 特性 的 程序 设计 语言 被 陆续 开 友 
出 来 。 它 们 使 得 编程 更 加 容易 、 上 自然 ， 功 能 也 更 强大 。 我 们 将 在 本 章 的 
后 面部 分 讨论 很 多 现代 程序 设计 语言 所 共有 的 一 些 关 键 特征 。 


当前 有 几 和 于 种 程序 设计 语言 。 可 以 通过 不 同 的 方式 对 这 些 语言 进行 
分 类 。 方 式 之 一 是 通过 语言 的 代 来 分 类 。 第 一 代 语 言 是 机 器 语言 ， 第 二 
代 语 言 是 汇编 语言 ， 而 第 三 代 语 言 是 Fortran、Cobol、Lisp、C、 C++、 
C# 及 Java 这 样 的 高 级 程序 设计 语言 。 第 四 代 语 言 是 为 特定 应 用 设计 的 语 
言 ， 比 如 用 于 生成 报告 的 NOMAD， 用 于 数据 库 查 询 的 SQL 和 用 于 文本 
排版 的 Postscript。 术 语 第 五 代 语 言 指 的 是 基于 逻辑 和 约束 的 语言 ， 比 如 
Prolog 和 OPS5。 




















另 一 种 语言 分 类 方式 把 程序 中 指明 如 何 完 成 一 个 计算 任务 的 语言 的 
称 为 强制 式 〈imperative) 语言 ， 而 把 程序 中 指明 要 进行 哪些 计算 的 语 
言 称 为 声明 式 〈declarative) 语言 。 诸 如 C、C++、C# 和 Java 等 语言 都 是 
强制 式 语言 。 所 有 强制 式 语言 中 都 有 用 于 表示 程序 状态 和 语句 的 表示 方 
法 ， 这 些 语句 可 以 改变 程序 状态 。 像 ML、Haskell 这 样 的 函数 式 语言 和 
Prolog 这 样 的 约束 逻辑 语言 通常 被 认为 是 声明 式 语言 。 


术语 冯 。 诺 伊 曼 语 言 (von Neumann language) 是 指 以 冯 : 话 伊 曼 计 
算 机 体系 结构 为 计算 模型 的 程序 设计 语言 。 今 天 的 很 多 语言 (比如 
Fortran 和 C) 都 是 冯 : 诡 伊 曼 语言 。 


面向 对 象 语 言 (object-oriented language) 指 的 是 文 持 面 癌 对 象 编程 
的 语言 ， 面 同 对 象 编程 是 指 用 一 组 相互 作用 的 对 象 组 成 程序 的 编程 风 
格 。Simula 67 和 Smalltalk 是 早期 的 主流 面 同 对 象 语言 。C++、C#、Java 
和 Ruby 是 现在 常用 的 面 同 对 象 语言 。 


脚本 语言 (scripting language) 是 具有 高 层次 运算 符 的 解释 型 语 
言 ， 它 通常 被 用 于 把 多 个 计算 过 程 “ 粘 合 ” 在 一 起 。 这 些 计算 过 程 被 称 为 
脚本 。Awk、JavaScript、Perl、PHP、Python、Ruby 和 Tcl 是 常见 的 脚本 
语言 。 使 用 脚本 语言 编写 的 程序 通常 要 比 用 其 他 语言 (比如 C)》 写 的 等 
价 的 程序 短 很 多 。 

















1.3.2 ”对 编译 器 的 影响 


因为 程序 设计 语言 的 设计 和 编译 需 是 紧密 相关 的 ， 程 序 设 计 语 言 的 
发 展 问 编 译 咒 的 设计 者 提出 了 新 的 要 求 。 他 们 必须 设计 相应 的 算法 和 表 
示 方 式 来 翻译 和 支持 新 的 语言 特征 。 从 20 世 纪 40 年 代 以 来 ， 计 算 机 体系 
结构 也 有 了 很 大 的 发 展 。 编 译 器 的 设计 者 不 仅 需 要 跟踪 新 的 语言 特征 ， 
还 需要 设计 出 新 的 翻译 算法 ， 以 便 尽 可 能 地 利用 新 人 硬件 的 能 


通过 降低 用 局 级 语言 程序 的 执行 开销 ， 编 译 占 还 可 以 推动 这 些 局 级 
语言 的 使 用 。 要 使 得 高 性 能 计算 机 体系 结构 能 够 高 效 运行 用 户 应 用 ， 纺 
译 句 也 是 至 关 重 要 的 。 实 际 上 ， 计 算 机 系统 的 性 能 是 非常 依赖 于 编译 技 
术 的 ， 以 至 于 在 构建 一 个 计算 机 之 前 ， 编 译 器 会 被 用 作 评 价 一 个 体系 结 
构 概念 的 工具 。 














编写 编译 器 是 很 有 挑战 性 的 。 编 译 器 本 身 就 是 一 个 大 程序 。 而 且 ， 
很 多 现代 语言 处 理 系统 在 同一 个 框 染 内 处 理 多 种 源 语言 和 目标 机 。 也 区 
是 说 ， 这 些 系统 可 以 被 当做 一 组 编译 器 来 使 用 ， 可 能 包含 几 百 万 行 代 
码 。 因 此 ， 好 的 软件 工程 技术 对 于 创建 和 发 展现 代 的 语言 处 理 器 是 非常 


重要 的 。 


编译 器 必须 能 够 正确 翻译 用 源 语 言 书写 的 所 有 程序 。 这 样 的 程序 的 
集合 通常 是 无 穷 的 。 为 一 个 源 程序 生成 最 佳 目标 代码 的 问题 一 般 来 说 是 
不 可 判定 的 。 因 此 ， 编 译 器 的 设计 者 必须 作出 折 瑞 处 理 ， 确 定 解决 哪些 
问题 ， 使 用 哪些 月 发 式 信息 ， 以 便 解 决 高 效 代码 生成 的 问题 。 


我 们 将 在 1.4 节 看 到 ， 有 关 编 译 圳 的 研究 也 是 有 关 如 何 使 用 理论 来 
解决 实践 问题 的 研究 。 


本 书 的 目的 是 教授 编译 需 设 计 中 使 用 的 根本 思想 和 方法 论 。 本 书 并 
不 想 让 读者 学 习 建 立 一 个 最 新 的 语言 处 理 系统 时 可 能 用 到 的 所 有 算法 和 
技术 。 但 是 ， 本 书 的 读者 将 获得 必要 的 基础 知识 和 理解 ， 学 会 建立 一 个 
相对 简单 的 编译 器 。 











1.3.3 1.3 节 的 练习 


练习 1.3.1: 指出 下 面 的 术语 : 
1) 强制 式 的 

声明 式 的 

冯 : 诺 伊 曼 式 的 
面向 对 象 的 

5) 函数 式 的 

6) 第 三 代 


7) 第 四 代 


Wa 


2 


Wo 


3 


Vd 


4 


8) 脚本 语言 
可 以 被 用 于 描述 下 面 的 哪些 语言 : 
1) C 

2 4 

3) Cobol 
4) Fortran 
5) Java 

6) Lisp 

7) ML 

8) Perl 

9) Python 


10) VB 


1.4 构建 一 个 编译 器 的 相关 科学 


编译 器 的 设计 中 有 很 多 通过 数学 方法 抽象 出 问题 本 质 从 而 解决 现实 
世界 中 复杂 问题 的 完美 例子 。 这 些 例 子 可 以 被 用 来 说 明 如 何 使 用 抽象 方 
法 来 解决 问题 : 接受 一 个 问题 ， 写 出 抓 住 了 问题 的 关键 特性 的 数学 抽象 
表示 ， 并 用 数学 技术 来 解决 它 。 问 题 的 表达 必须 根植 于 对 计算 机 程序 特 
性 的 深入 理解 ， 而 解决 方法 必须 使 用 经 验 来 验证 和 精 化 。 


编译 器 必须 接受 所 有 遵循 语言 规范 的 源 程 序 。 源 程序 的 集合 是 无 家 
的 ， 而 程序 可 能 大 到 包含 几 百 万 行 代码 。 在 翻译 一 个 源 程序 的 过 程 中 ， 
编译 器 所 做 的 任何 翻译 工作 者 不 能 改变 被 编译 源 程 序 的 含义 。 因 此 ， 纺 
译 需 设计 者 的 工作 不 仅 会 影响 到 他 们 创建 的 编译 器 ， 还 会 影响 到 他 们 所 
创建 的 编译 费 所 编译 的 全 部 程序 。 这 种 杠杆 作用 使 得 编译 占 设 计 的 回报 
丰厚 ， 但 也 使 得 编译 器 的 开发 工作 具有 挑战 性 。 





1.4.1 编译 器 设计 和 实现 中 的 建 模 


对 编译 器 的 研究 主要 是 有 关 如 何 设计 正确 的 数学 模型 和 选择 正确 算 
法 的 研究 。 设 计 和 选择 时 ， 还 需要 考虑 到 对 通用 性 及 功能 的 要 求 与 简单 
性 及 有 效 性 之 间 的 平衡 。 


最 基本 的 数学 模型 是 我 们 将 在 第 3 章 介 绍 的 有 穷 状态 自动 机 和 正则 
表达 式 。 这 些 模 型 可 以 用 于 描述 程序 的 词法 单位 (关键 字 、 标 识 符 等 ) 
以 及 描述 被 编译 侨 用 来 识别 这 些 单位 的 算法 。 最 基本 的 模型 中 还 包括 上 
下 文 无 关 文法， 它 用 于 揪 述 程序 设计 语言 的 语法 结构 ， 比 如 髓 套 的 括号 
和 控制 结构 。 我 们 将 在 第 4 章 研 完 文 法 。 类 似 地 ， 树 形 结构 是 表示 程序 
000 1 











1.4.2 ”代码 优化 的 科学 


在 编译 器 设计 中 ， 术 语 “ 优 化 ?是 指 编译 圳 为 了 生成 比 浅显 直 观 的 代 
码 更 加 高 效 的 代码 而 做 的 工作 。“ 优 化 ?这 个 词 并 不 恰当 ， 因 为 没有 办 法 
人 
少 一样 快 。 


现在 ， 编 诺 器 所 作 的 代码 优化 变 得 更 加 重要 ， 而 且 更 加 复杂 。 之 所 
以 变 得 更 加 复杂 ， 是 因为 处 理 器 体系 结构 变 得 更 加 复杂 ， 也 有 了 更 多 改 
进 代 码 执行 方式 的 机 会 。 之 所 以 变 得 更 加 重要 ， 是 因为 巨型 并 及 计算 机 
要 求实 质 性 的 优化 ， 人 否则 乞 们 的 性 能 将 会 至 数量 级 地 下 降 。 随 着 多 核 计 
算 机 《这 些 计 算 机 上 的 必 片 拥有 多 个 处 理 需 ) 日 普 流 行 ， 所 有 的 编译 需 
都 将 面临 充分 利用 多 处 理 器 计算 机 的 优势 的 问题 。 


即使 有 可 能 通过 随意 的 方法 来 建造 一 个 健壮 的 编译 器 ， 实 现 起 来 也 
是 非常 困难 的 。 因 此 ， 人 们 已 经 围 纸 代 码 优化 建立 了 一 套 广 泛 且 有 用 的 
理论 。 应 用 严格 的 数学 基础 ， 使 得 我 们 可 以 证 明 一 个 优化 是 正确 的 ， 并 
且 它 对 所 有 可 能 的 输入 都 产生 预期 的 效果 。 从 第 9 章 开 始 ， 我 们 将 会 看 
到 ， 如 果 想 使 得 编译 絮 产 生 经 过 良好 优化 的 代码 ， 图 、 和 窍 阵 和 线性 规划 
之 类 的 模型 是 必 不 可 少 的 。 


从 男 一 方面 来 说 ， 只 有 理论 是 不 够 的 。 很 多 现实 世界 中 的 问题 都 没 
有 完美 的 答案 。 实 际 上 上， 我们 在 编译 占 优 化 中 提出 的 很 多 问题 部 是 不 可 
判定 的 。 在 编译 器 设计 中 ， 最 重要 的 技能 之 一 是 明确 描述 出 真正 要 解决 
的 问题 的 能 力 。 我 们 在 一 开始 需要 对 程序 的 行为 有 充分 的 了 解 ， 并 且 需 
要 通过 充分 的 试验 和 评价 来 验证 我 们 的 直觉 。 


编译 器 优化 必须 满足 下 面 的 设计 目标 : 


。 优化 必须 是 正确 的 ， 也 就 是 说 ， 不 能 改变 被 编译 程序 的 含义 。 
。 优化 必须 能 够 改善 很 多 程序 的 性 能 。 

。 优化 所 需 的 时 间 必 须 保持 在 合理 的 范围 内 。 

。 所 需要 的 工程 方面 的 工作 必须 是 可 管理 的 。 


对 正确 性 的 强调 是 无 论 如 何不 会 过 分 的 。 不 管 设计 得 到 的 编译 器 能 
够 生成 运行 速度 多 么 快 的 代码 ， 只 要 生成 的 代码 不 正确 ， 这 个 设计 就 是 
坚 无 意义 的 。 正 确 设 计 优 化 编译 占 是 如 此 困难 ， 我 们 敢 说 没有 一 个 优化 
人 
俩 。 


























第 二 个 目标 是 编译 器 应 该 有 效 提高 很 多 输入 程序 的 性 能 。 性 能 通 沼 
意味 着 程序 执行 的 速度 。 我 们 也 希望 能 够 尽 可 能 降低 生成 代码 的 大 小 ， 
在 租 入 式 系 统 中 更 是 如 此 。 而 对 于 移动 设备 的 情况 ， 尺 量 降低 代码 的 能 
耗 也 是 我 们 期 待 的 。 在 通常 情况 下 ， 提 融 执 行 效率 的 优化 也 能 够 市 约 能 
耗 。 除 了 性 能 ， 错 误 报 告 和 调试 等 的 可 用 性 方面 也 是 很 重要 的 。 


第 三 ， 我 们 需要 使 编译 时 间 保 持 在 较 短 的 范围 内 ， 以 文 持 快速 的 开 
发 和 调试 周期 。 当 机 器 变 得 越 来 越 快 ， 这 个 要 求 会 越 来 越 容易 达到 。 开 
始 时 ， 一 个 程序 经 党 在 没有 进行 优化 的 情况 下 开发 和 调试 。 这 么 做 不 仅 
可 以 降低 编译 时 间 ， 更 重要 的 是 未 经 优化 的 程序 比较 容易 调试 。 这 是 因 
为 编译 器 引入 的 优化 经 常 使 得 源 代 码 和 目标 代码 之 间 的 关系 变 得 模糊 。 
在 编译 器 中 开局 优化 有 时 会 暴露 出 源 程序 中 的 新 问题 ， 因 此 需要 对 经 过 
优化 的 代码 再 次 进行 测试 。 因 为 可 能 需要 额外 的 测试 工作 ， 有 时 会 阻止 
人 们 在 应 用 中 使 用 优化 技术 ， 当 应 用 的 性 能 不 很 重要 的 时 候 更 是 如 此 。 


最 后 ， 编 译 器 是 一 个 复杂 的 系统 ， 我 们 必须 使 系统 保持 简单 以 保证 
编译 占 的 设计 和 维护 费用 是 可 管理 的 。 我 们 可 以 实现 的 优化 技术 有 无 穷 
多 种 ， 而 创建 一 个 正确 有 效 的 优化 过 程 需 要 相当 大 的 工作 量 。 我 们 必须 
划分 不 同 优化 技术 的 优先 级 别 ， 只 实现 那些 可 以 对 实践 中 过 到 的 源 程序 
市 来 最 大 好 处 的 技术 。 


因此 ， 我 们 在 研究 编译 器 时 不 仅 要 学 习 如 何 构 造 一 个 编译 器 ， 还 要 
学 习 解 决 复杂 和 开放 性 问题 的 一 般 方法 学 。 在 编译 占 开 发 中 用 到 的 方法 
涉及 理论 和 实验 。 在 开始 的 时 候 ， 我 们 通常 根据 直觉 确定 有 哪些 重要 的 
问题 并 把 它们 明确 描述 出 来 。 












































1.5 ”编译 技术 的 应 用 


编译 器 设计 并 不 只 是 关于 编译 器 的 。 很 多 人 用 到 了 在 学 校 里 研究 编 
译 需 时 学 到 的 技术 ， 但 是 严格 地 说 ， 它 们 从 没有 为 一 个 主流 的 程序 设计 
语言 编写 过 一 个 编译 器 《〈 甚 至 其 中 的 一 部 分 ) 。 编 译 需 技术 还 有 其 他 重 
要 用 途 。 男 外 ， 编 译 占 设计 影响 了 计算 机 科学 中 的 其 他 领域 。 在 本 节 ， 
我 们 将 回顾 和 编译 技术 有 关 的 最 重要 的 互动 和 应 用 。 











1.5.1 ”高 级 程序 设计 语言 的 实现 


一 个 高 级 程序 设计 语言 定义 了 一 个 编程 抽象 : 程序 员 使 用 这 个 语言 
表达 算法 ， 而 编 诺 器 必须 把 这 个 程序 翻译 成 目标 语言 。 总 的 来 说 ， 用 高 
级 程序 设计 语言 编程 比较 容易 ， 但 是 比较 低 效 ， 也 就 是 说 ， 目 标 程序 运 
行 较 慢 。 使 用 低级 程序 设计 语言 的 程序 员 能 够 更 多 地 控制 一 个 计算 过 
程 ， 因 此 从 原则 上 讲 ， 可 以 产生 更 加 高 效 的 代码 。 遗 憾 的 是 ， 低 级 程序 
比较 难 编写 ， 而 且 更 糟糕 的 是 可 移植 性 较 差 ， 更 容易 出 错 ， 而 且 更 加 难 
以 维护 。 优 化 编译 器 包括 了 提高 所 生成 代码 性 能 的 技术 ， 因 此 弥补 了 因 
高 层次 抽象 而 引入 的 低 效率 。 


C 语 言 中 的 关键 字 register 征 编译 器 技术 和 语言 发 展 互动 的 一 个 
区 于 的 例子 。 当 C 语 言 在 20 世 纪 70 年 代 中 期 被 创 并 时， 人 们 认为 有 必要 
让 程序 员 来 控制 哪个 程序 变量 应 该 存放 在 寄存 器 中 。 当 有 效 的 寄存 器 分 
配 技 术 出 现 后 ， 这 个 控制 变 得 没有 必要 了 ， 大 多 数 现代 的 程序 不 再 使 用 


这 个 语言 特征 。 


实际 上 ， 使 用 关键 字 register 的 程序 还 可 能 损失 效率 ， 因 为 寄存 器 
分 配 是 一 类 很 低层 次 的 问题 ， 程 序 员 篆 币 不 是 最 好 的 判断 这 类 问题 的 人 
选 。 寄 存 器 分 配 的 最 优选 择 很 大 程度 上 取决 于 一 个 机 器 的 体系 结构 的 特 
点 。 把 低层 次 资源 管理 的 决策 ， 比 如 寄存 嚣 分配 ， 写 死 在 程序 中 反而 有 
0 
DC。 


对 于 程序 设计 语言 的 选择 的 变化 与 不 断 提 高 抽象 层次 的 方向 是 一 致 


























的 。C 语 言 是 在 20 世 纪 80 年 代 主流 的 系统 程序 设计 语言 ，20 世 纪 90 年 代 
开始 的 很 多 项 目 则 选择 Cr+， 在 1995 年 推出 的 Java 很 快 在 20 世 纪 90 年 代 
后 期 流行 起 来 。 在 每 一 轮 中 引入 的 新 的 程序 设计 语言 特征 都 会 推动 对 于 
编译 器 优化 的 新 研究 。 接 下 来 ， 我 们 将 给 出 一 个 关于 主要 语言 特征 的 概 
览 ， 这 些 特征 曾经 推动 了 编译 器 技术 的 重要 发 展 。 


在 实践 中 ， 所 有 的 通用 程序 设计 语言 ， 包 括 C、Fortran 和 Cobol， 都 
文 持 用 户 定 义 的 聚合 类 型 〈 如 数组 和 结构 ) 和 高 级 控制 流 《〈 比 如 循环 和 
过 程 调用 ) 。 如 采 我 们 仅仅 把 每 个 高 级 结构 和 数据 存 取 运 算 直 接 翻 译 成 
为 机 器 代码 ， 得 到 的 代码 将 会 非常 低 效 。 编 译 喜 优化 的 一 个 组 成 部 分 称 
为 数据 流 优化 ， 它 可 以 对 程序 的 数据 流 进行 分 析 ， 并 消除 这 些 构 造 之 间 
的 见 余 。 它 们 很 有 效 ， 生 成 的 代码 和 一 个 熟练 的 低级 语言 程序 员 所 写 的 
代码 类 似 。 


面 同 对 象 概念 首先 于 1967 年 在 Simula 中 引入 ， 并 被 集成 到 
Smalltalk、C++、C# 和 和 Java 这 样 的 语言 中 。 面 向 对 象 的 主要 思想 是 


1) 数据 抽象 
2) 特性 的 继承 


人 们 发 现 这 两 者 都 可 以 使 得 程序 更 加 模块 化 和 易于 维护 。 面 问 对 象 
程序 和 用 很 多 其 他 语言 编写 的 程序 之 间 的 不 同 在 于 它们 由 多 得 多 的 《但 
是 较 小 ) 过 程 ( 在 面向 对 象 术语 中 称 为 方法 (method) ) 组 成 。 因 此 ， 
编译 如 优化 技术 必须 能 够 很 好 地 跨越 源 程 序 中 的 过 程 边界 进行 优化 。 过 
程 内 联 技 术 〔 即 把 一 个 过 程 调 用 丛 换 为 相应 过 程 体 ) 在 这 里 是 非常 有 用 
的 。 人 们 还 开发 了 可 以 加 速 虚 拟 方法 分 发 的 优化 技术 。 


Java 有 很 多 特征 可 以 使 编程 变 得 更 容易 ， 其 中 的 很 多 特征 之 前 已 经 
在 别 的 语言 中 引入 。Java 语 言 是 类 型 安全 的 ， 也 就 是 说 ， 一 个 对 象 不 能 
被 当 作 另 一 个 无 关 类 型 的 对 象 来 使 用 。 所 有 的 数组 访问 运算 都 会 被 检查 
以 保证 它们 在 数组 的 界限 之 内 。Java 没 有 指针 ， 也 不 允许 指针 运算 。 它 
共有 一 个 内 建 的 垃圾 收集 机 制 来 自动 释放 那些 不 再 使 用 的 变量 所 占用 的 
内 存 。 虽 然 所 有 这 些 特 征 使 得 编程 变 得 更 加 容易 ， 但 它们 也 会 引起 运行 
时 刻 的 开销 。 人 们 开发 了 相应 的 编译 优化 技术 来 降低 这 个 开销 。 比 如 ， 
消除 不 必要 的 下 标 范 围 检查 ， 以 及 把 那些 在 过 程 之 外 不 可 访问 的 对 象 分 
人 









































除 此 之 外 ，Java 用 来 支持 可 移植 和 可 移动 的 代码 。 程 序 以 Java 字 节 
码 的 方式 分 及。 这 些 字 节 码 要 么 被 解释 执行 ， 要 么 被 动态 地 〈 即 在 运行 
时 刻 ) 编译 为 本 地 代码 。 动 态 编译 也 曾经 在 其 他 上 下 文 环境 中 被 研究 
过 。 在 那里 ， 信 息 在 运行 时 刻 被 动态 地 抽取 出 来 ， 并 用 来 生成 更 加 优化 
的 代码 。 在 动态 编译 中 ， 尽 可 能 降低 编译 时 间 是 很 重要 的 ， 因 为 编译 时 
间 也 是 运行 开销 的 一 部 分 。 一 个 常用 的 技术 是 只 编译 和 优化 那些 经 常 运 
行 的 程序 片断 。 








1.5.2 ”针对 计算 机 体系 结构 的 优化 








计算 机 体系 结构 的 快速 发 展 也 对 新 编译 器 技术 提出 了 越 来 越 多 的 需 
求 。 几 乎 所 有 的 高 性 能 系统 都 利用 了 两 种 技术 : 并 行 (parallelism) 和 
内 存 层 次 结构 (memory hierarchy) 。 并 行 可 以 出 现在 多 个 层次 上 : 在 
站 令 层 次 上 ， 多 个 运算 可 以 被 同时 执行 ， 在 处 理 器 层次 上 ， 同 一 个 应 用 
的 多 个 不 同 线程 在 不 同 的 处 理 器 上 运行 。 内 存 层次 结构 是 应 对 下 述 局 限 
性 的 方法 : 我 们 可 以 制造 非常 快 的 内 存 ， 或 者 非常 大 的 内 存 ， 但 是 无 法 
制造 非常 大 又 非常 快 的 内 存 。 


开行 性 


所 有 的 现代 微 处 理 器 都 采用 了 指令 级 并 行 性 。 但 是 ， 这 种 并 行 性 可 
以 对 程序 员 隐 藏 起 来 。 程 序 员 写 程序 的 时 候 就 好 像 所 有 指令 都 是 顺序 执 
行 的 。 硬 件 动态 地 检 训 顺序 指令 流 之 间 的 依赖 和 关系， 并且 在 可 能 的 时 候 
并 行 地 发 出 指令 。 在 有 些 情况 下 ， 机 器 包 合 一 个 人 硬件 调度 器 。 该 调度 器 
可 以 改变 指令 的 顺序 以 提高 程序 的 并 行 性 。 不 管 硬 件 是 否 对 指令 进行 重 
新 排序 ， 编 译 器 都 可 以 重新 安排 指令 ， 以 使 得 指令 级 并 行 更 加 有 效 。 


间 令 级 的 并 行 也 显 式 地 出 现在 指令 集中 。VLIW (Very Long 
Instruction Word， 非 常 长 指令 字 ) 机 器 拥有 可 并 行 执 行 多 个 运算 的 指 
令 。Intel IA64 是 这 种 体系 结构 的 一 个 有 名 的 例子 。 所 有 的 高 性 能 通用 微 
处 理 器 还 包含 了 可 以 同时 对 一 个 同 量 中 的 所 有 数据 进行 运算 的 指令 。 人 
人 了 相应 的 编译 器 技术 ， 从 顺序 程序 出 发 为 这 样 的 机 器 上 自动 


多 处 理 器 也 已 经 日 区 流行 ， 即 使 个 人 计算 机 也 拥有 多 个 处 理 咒 。 程 
序 员 可 以 为 多 处 理 器 编写 多 线程 的 代码 ， 也 可 以 通过 编译 器 从 传统 的 顺 









































序 程序 目 动 生成 并 行 代码 。 这 样 的 编译 圳 对 程序 员 隐 藏 了 一 些 细节 ， 包 
括 如 何在 程序 中 找到 并 行 性 ， 如 何在 机 器 中 分 发 计算 任务 ， 以 及 如 何 最 
小 化 处 理 需 之 间 的 同步 和 通信 。 很 多 科学 计算 和 工程 性 应 用 需要 进行 局 
强度 的 计算 ， 因 此 可 以 从 并 行 处 理 中 得 到 很 大 的 好 处 。 人 们 已 经 开发 了 
并 行 技术 以 便 上 自动 地 把 顺序 的 科学 计算 程序 翻译 成 为 多 处 理 器 代码 。 


内 存 层次 结构 


一 个 内 存 层次 结构 由 儿 层 具有 不 同 速度 和 大 小 的 存储 器 组 成 。 离 处 
理 需 最 近 的 层 速度 最 快 但 是 容量 最 小 。 如 果 一 个 程序 的 大 部 分 内 存 访 问 
都 能 够 由 层次 结构 中 最 快 的 层 满足 ， 那 么 程序 的 平均 内 存 访问 时 间 就 会 
降低 。 并 行 性 和 内 存 层 次 结构 的 存在 都 会 提高 一 个 机 器 的 潜在 性 能 。 但 
是 ， 它 们 必须 被 编译 器 有 效 利 用 才能 够 真正 为 一 个 应 用 提供 高 性 能 计 
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内 存 层次 结构 可 以 在 所 有 的 机 器 中 找到 。 一 个 处 理 器 通 第 有 少量 的 
儿 百 个 字 节 的 寄存 器 ， 几 层 包 含 了 几 K 到 几 光 字 市 的 高 速 缓存 ， 包 含 了 
几 兆 到 几 G 字 节 的 物理 寄存 器 ， 最 后 还 包括 多 个 几 G 字 节 的 外 部 存储 
器 。 相 应 地 ， 层 次 结构 中 相 邻 层次 间 的 存 取 速 度 会 有 两 到 三 个 数量 级 上 
的 差异 。 系 统 性 能 经 常 受 到 内 存 子 系统 的 性 能 而 不 是 处 理 右 的 性 能 
的 限制 。 虽 然 一 般 来 说 编译 器 注重 优化 处 理 器 的 执行 ， 现 在 人 们 更 多 地 
强调 如 何 使 得 内 存 层次 结构 更 加 高 效 。 


高 效 使 用 寄存 器 可 能 是 优化 一 个 程序 时 要 处 理 的 最 重要 的 问题 。 和 
寄存 器 必须 由 软件 明确 管理 不 同 ， 高 速 缓存 和 物理 内 存 是 对 指令 集合 隐 
藏 的 ， 并 由 硬件 管理 。 人 们 发 现 ， 由 硬件 实现 的 高 速 缓存 管理 沫 略 有 时 
并 不 高 效 。 当 处 理 具 有 大 型 数据 结构 《〈 通 音 是 数组 ) 的 科学 计算 代码 时 
更 是 如 此 。 我 们 可 以 改变 数据 的 布局 或 数据 访问 代码 的 顺序 来 提高 内 存 
全 
J os 。 





























1.5.3 ”新 计算 机 体系 结构 的 设计 


在 计算 机 体系 结构 设计 的 早期 ， 编 详 絮 是 在 机 右 建 造 好 之 后 再 开发 
的 。 现 在 ， 这 种 情况 已 经 有 所 改变 。 因 为 使 用 高 级 程序 设计 语言 是 一 种 
规范 ， 决 定 一 个 计算 机 系统 性 能 的 不 是 它 的 原始 速度 ， 还 包括 编译 圳 能 


够 以 何 种 程度 利用 其 特征 。 因 此 ， 在 现代 计算 机 体系 结构 的 开发 中 ， 编 
译 嚣 在 处 理 器 设计 阶段 就 进行 开 友 ， 然 后 编译 得 到 代码 并 运行 于 模拟 颖 
上 。 这 些 代码 被 用 来 评价 提议 的 体系 结构 特征 。 


RISC 


有 关 编 译 占 如 何 影响 计算 机 体系 结构 设计 的 最 有 名 的 例子 之 一 是 
RISC (Reduced Instruction-Set Computer， 精 简 指 令 集 计算 机 〉 的 发 明 。 
在 发 明 RISC 之 前 ， 趋 势 是 开发 的 指令 集 越 来 越 复 杂 ， 以 使 得 汇编 编程 
变 得 更 容易 。 这 些 体系 结构 称 为 CISC (Complex Instruction-Set 
Computer， 复 杂 指 令 集 计算 机 ) 。 比 如 ，CISC 指 令 集 包含 了 复杂 的 内 
存 寻 址 模式 来 文 持 对 数据 结构 的 访问 ， 还 包含 了 过 程 调 用 指令 来 保存 寄 
存 器 和 问 栈 中 传递 参数 。 


编译 器 优化 经 常 能 够 消除 复杂 指令 之 间 的 见 余 ， 把 这 些 指令 前 减 为 
少量 较 简 单 的 运算 。 因 此 ， 人 们 期 望 设计 出 简单 指令 集 。 编 译 器 可 以 有 
效 地 使 用 它们 ， 而 硬件 也 更 容易 进行 优化 。 


大 部 分 通用 处 理 器 体系 结构 ， 包 括 PowerPC、SPARC、MIPS、 
Alpha 和 PA-RISC， 都 是 基于 RISC 概 念 的 。 昌 然 x86 体 系 结构 (最 流行 的 
微 处 理 器 ) 具有 CISC 指 令 集 ， 但 在 这 个 处 理 器 本 身 的 实现 中 使 用 了 很 
多 为 RISC 机 器 发 展 得 到 的 思想 。 不 仅 如 些 ， 使 用 高 性 能 x86 机 器 的 最 有 
效 的 方法 是 仅 使 用 它 的 简单 指令 。 


专用 体系 结构 


在 过 去 的 30 年 中 ， 提 出 了 很 多 的 体系 结构 概念 。 其 中 包括 : 数据 流 
机 恬 、 回 量 机 、VLIW 非常 长 指令 字 ) 机 右 、SIMD ( 单 指令 ， 多 数 
据 ) 处 理 器 阵列 、 心 动 阵列 〈systolic array) 、 共 享 内 存 的 多 处 理 器 、 
分 布 式 内 存 的 多 处 理 器 。 每 种 体系 结构 概念 的 发 展 都 伴随 着 相应 编译 器 
技术 的 研究 和 发 展 。 


这 些 思 想 中 的 一 部 分 已 经 应 用 到 内 入 式 机 器 的 设计 中 。 因 为 整个 系 
统 都 可 以 放 到 一 个 蕊 片 里 面 ， 所 以 处 理 占 不 再 是 预 包 准 的 商品 。 人 们 可 
以 针对 特定 应 用 进行 裁剪 以 获得 更 好 的 费 效 比 。 由 于 规模 经 济 效 用 ， 通 
用 处 理 占 的 体系 结构 具有 趋同 性 。 而 专用 应 用 的 处 理 占 则 与 此 相反 ， 体 
现 出 了 计算 机 体系 结构 的 多 样 性 。 人 们 不 仪 需要 编译 占 技 术 来 为 这 些 体 
系 结构 编程 提供 文 持 ， 也 需要 用 它们 来 评价 拟 议 中 的 体系 结构 设计 。 














1.5.4 程序 翻译 








我 们 通常 把 编译 看 作 是 从 一 个 蜗 级 语言 到 机 器 语言 的 翻译 过 程 。 同 
样 的 搁 术 也 可 以 应 用 到 不 同 种 类 的 语言 之 间 的 翻译 。 下 面 是 程序 翻 详 技 
术 的 一 些 重要 应 用 。 


二 进 制 翻译 


编译 器 技术 可 以 用 于 把 一 个 机 器 的 三 进 制 代码 翻 译 成 男 一 个 机 占 的 
二 进 制 代码 ， 使 得 可 以 在 一 个 机 器 上 运行 原本 为 男 一 个 指令 集 编译 的 程 
序 。 二 进 制 翻译 技术 已 经 被 不 同 的 计算 机 公司 用 来 增加 它们 的 机 器 上 的 
可 用 软件 。 特 别 地 ， 因 为 x86 在 个 人 计算 机 市 场 上 的 主导 地 位 ， 很 多 软 
件 都 是 以 x86 二 进 制 代 码 的 形式 提供 的 。 人 们 开发 了 二 进 制 代码 翻译 
器 ， 把 x86 代 码 转 换 成 Alpha 和 Sparc 的 代码 。Transmeta 公 司 也 在 他 们 的 
x86 指 令 集 实现 中 使 用 了 二 进 制 转 换 。 他 们 没有 直接 在 人 硬件 上 运行 复杂 
的 x86 指 令 集 ， 他 们 的 Ttransmeta Crusoe 处 理 器 是 一 个 VLIW 处 理 器 ， 它 
依赖 于 二 进 制 翻译 器 来 把 x86 代 码 转换 成 为 本 地 的 VLIW 代 人 码 。 


二 进 制 翻译 也 可 以 被 用 来 提供 加 后 兼容 性 。1994 年 ， 当 Apple 
Macintosh 中 的 处 理 器 从 Motorola MC68040 变 为 PowerPC 的 时 候 ， 便 使 用 
二 进 制 翻译 来 支持 PowerPC 处 理 器 运行 遗留 下 来 的 MC68040 代 码 。 


人 硬件 合成 


不 仅仅 大 部 分 软件 是 用 高 级 语言 描述 的 ， 连 大 部 分 硬件 设计 也 是 使 
用 高 级 硬件 描述 语言 描述 的 ， 这 些 语言 有 Verilog 和 VHDL (Very high- 
speed integrated circuit Hardware Description Language， 其 高 速 集成 电路 
硬件 描述 语言 ) 。 硬 件 设计 通常 是 在 寄存 器 传输 层 (Register Transfer 
Level，RTL) 上 描述 的 。 在 这 个 层 中 ， 变 量 代 表 寄 存 串 ， 而 表达 式 代表 
组 合 逻 辑 。 硬 件 合成 工具 把 RTL 描 述 自 动 翻译 成 为 门 电路 ， 而 门 电 路 再 
被 翻译 成 为 晶体 管 ， 最 后 生成 一 个 物理 布局 。 和 程序 设计 语言 的 编译 器 
不 同 ， 这 些 工具 经 常会 花费 几 个 小 时 来 优化 门 电路 。 还 存在 一 些 用 来 翻 
译 更 遍 层 次 《比如 行为 和 函数 层次 ) 的 设计 描述 的 技术 。 


数据 查询 解释 器 























除了 摘 述 软件 和 硬件 ， 语 言 在 很 多 应 用 中 都 是 有 用 的 。 比 如 ， 碍 询 
语言 (特别 是 SQL 语 言 〈Structured Query Language， 结 构 化 查询 语言 ) 
被 用 来 搜索 数据 库 。 数 据 库 查 询 由 包含 了 关系 和 布尔 运算 符 的 断言 组 
成 。 它 们 可 以 被 解释 ， 也 可 以 编译 为 代码 ， 以 便 在 一 个 数据 库 中 搜索 满 
足 这 个 断言 的 记录 。 


编译 然后 模拟 


模拟 是 在 很 多 科学 和 工程 领域 内 使 用 的 通用 技术 。 它 用 来 理解 一 个 
现象 或 者 验证 一 个 设计 。 模 拟 喜 的 输入 通 第 包括 设计 描述 和 茶 次 特定 模 
拟 运 行 的 具体 输入 参数 。 模 拟 可 能 会 非常 昂贵 。 我 们 通 第 需要 在 不 同 的 
输入 集合 中 模拟 很 多 可 能 的 设计 选择 。 而 每 个 实验 可 能 需要 在 高 性 能 计 
算 机 上 花费 几 天 时 间 才 能 完成 。 另 一 个 方法 不 需要 与 一 个 模拟 器 来 解释 
这 些 设 计 。 它 对 设计 进行 编译 并 生成 能 够 在 机 器 上 直接 模拟 特定 设计 的 
机 器 代码 。 后 者 的 运行 更 加 快 。 经 过 编译 的 模拟 运行 可 以 比 基 于 解释 器 
的 方法 快 几 个 数量 级 。 在 那些 可 以 模拟 用 Verilog 或 VHDL 描 述 的 设计 的 
最 狐 工 具 中 ， 人 们 都 使 用 了 编译 后 模拟 的 技术 。 





























1.5.5 软件 生产 率 工 具 


程序 可 以 说 是 人 类 迄今 为 止 生产 出 的 最 复杂 的 工程 制品 ， 它 们 包含 
了 很 多 很 多 的 细 市 。 要 使 得 程序 能 够 完全 正确 运行 ， 每 个 细 市 都 必须 是 
正确 的 。 结 果 是 程序 中 的 错误 很 是 独 狐 。 错 误 可 以 使 一 个 系统 骨 沉 ， 产 
生 错 误 的 输出 ， 使 得 系统 容易 受到 安全 性 攻击 ， 在 关键 系统 中 甚至 会 引 
起 灾难 性 的 运行 错误 。 测 试 是 对 系统 中 的 错误 进行 定位 的 主要 技术 。 


一 个 很 有 意思 且 很 有 前 景 的 辅助 性 方法 是 通过 数据 流 分 析 技 术 静 态 
地 《 即 在 程序 运行 之 前 ) 定位 错误 。 数 据 流 分 析 可 以 在 所 有 可 能 的 执行 
路 径 上 找到 错误 ， 而 不 是 像 程序 测试 的 时 候 所 做 的 那样 ， 仅 仅 是 在 那些 
由 输入 数据 组 合 执行 的 路 径 上 找 错误 。 很 多 原本 为 编译 器 优化 所 开发 的 
工程 任务 。 


找到 程序 的 所 有 错误 是 不 可 判定 问题 。 可 以 设计 一 个 数据 流 分 析 方 
法 来 找 出 所 有 可 能 禹 有 某 种 错误 的 语句 ， 对 程序 员 发 出 警告 。 但 是 如 果 
这 些 警 告 中 的 大 部 分 都 是 误 报 ， 用 户 将 不 会 使 用 这 个 工具 。 因 此 ， 实 用 



































的 错误 检测 器 经 党 既 不 是 健全 的 也 不 是 完全 的 。 也 就 是 说 ， 它 们 不 可 能 
找 出 程序 中 的 所 有 错误 ， 也 不 能 保证 报告 的 所 有 错误 都 真正 是 错误 。 虽 
然 如 此 ， 人 们 仍然 开发 了 很 多 种 静态 分 析 工 具 ， 这 些 工 具 能 够 在 实际 程 
序 中 有 效 地 找到 错误 ， 比 如 释放 空 指 针 或 已 释放 过 的 指针 。 错 误 探 测 器 
可 以 是 不 健全 的 。 这 个 事实 使 得 它们 和 编译 器 的 优化 有 着 显著 不 同 。 优 
化 器 必须 是 保守 的 ， 在 任何 情况 下 都 不 能 改变 程序 的 语义 。 


在 本 节 中 ， 我 们 将 提 到 使 用 程序 分 析 技 术 来 提高 软件 生产 效率 的 几 
个 已 有 途径 。 这 上 坚 分 析 是 在 原本 为 编 诺 器 代码 优化 而 开发 的 技术 的 基础 
0 i 
可 


类 型 检查 


类 型 检查 是 一 种 有 效 的 ， 且 被 充分 研究 的 技术 ， 它 可 以 被 用 于 捕捉 
程序 中 的 不 一 致 性 。 它 可 以 用 来 检测 一 些 错误 ， 比 如 ， 运 算 被 作用 于 错 
误 类 型 的 对 象 上 ， 或 者 传递 给 一 个 过 程 的 参数 和 该 过 程 的 范 型 
(signature ) 不 匹配 。 通 过 分 析 程 序 中 的 数据 流 ， 程 序 分 析 还 可 以 做 出 
比 检查 类 型 错误 更 多 的 工作 。 比 如 ， 一 个 指针 被 赋予 了 NULL 值 ， 然 后 又 
立刻 被 释放 了 ， 这 个 程序 显然 是 错误 的 。 


这 个 技术 也 可 以 用 来 捕捉 茶 种 安全 漏洞 。 其 中 ， 攻 击 者 可 以 回程 序 
提供 一 个 字符 串 或 者 其 他 数据 ， 而 这 些 数据 没有 被 程序 谨慎 使 用 。 一 个 
用 户 提 供 的 字符 串 可 以 被 加 上 一 个 “危险 ?的 标号 。 如 果 没 有 检查 这 个 字 
符 串 是 否 满足 特定 的 格式 ， 那 么 它 仍然 是 “危险 "的 。 如 果 这 种 类 型 的 字 
0 0 

漏洞 。 


边界 检查 


相对 于 较 高 级 的 程序 设计 语言 而 言 ， 用 较 低 级 语言 编程 更 加 容易 犯 
错 。 比 如 ， 很 多 系统 中 的 安全 漏 铜 都 是 因为 用 C 语 言 编写 的 程序 中 的 组 
冲 区 溢出 造成 的 。 因 为 C 语 言 没 有 数组 边界 检查 ， 所 以 必须 由 用 户 来 保 
证 对 数组 的 访问 没有 超出 边界 。 因 为 不 能 检验 用 户 提 供 的 数据 是 否 可 能 
溢出 一 个 缓冲 区 ， 程 序 可 能 锐 欺 ， 把 一 个 数据 存放 到 缓冲 区 之 外 。 攻 
击 者 可 以 巧妙 处 理 这 些 数据 ， 使 得 程序 做 出 错误 的 行为 ， 从 而 危及 系统 
0 
玫 不 显著 。 



































如 果 程 序 是 用 一 种 包含 了 目 动 区 间 检 查 的 安全 的 语言 编写 的 ， 这 个 
问题 就 不 会 发 生 。 用 来 消除 程序 中 的 元 余 区 间 检 查 的 数据 流 分 析 撤 术 也 
可 以 用 来 定位 缓冲 区 溢出 错误 。 而 最 大 区 别 在 于 ， 没 能 消除 茶 个 区 间 检 
碍 仅仅 会 寻 致 很 小 的 额外 运行 时 刻 开 销 ， 而 没有 指出 一 个 洪 在 的 缓冲 区 
溢出 错误 却 可 能 危及 系统 的 安全 性 。 因 此 ， 虽 然 使 用 简单 的 技术 去 进行 
区 间 检 查 优 化 惑 已 经 足够 了 ， 但 在 错误 探测 工具 中 获得 高 质量 的 结 末 则 
再 要 复杂 的 分 析 技 术 ， 比 如 在 过 程 之 间 跟 踩 指 针 值 的 技术 。 


内 存 管 理工 具 


垃圾 收集 机 制 是 在 效率 和 易 编 程 及 软件 可 靠 性 之 间 进 行 折 衷 处 理 的 
另 一 个 极 好 的 例子 。 目 动 的 内 存 管 理 消除 了 所 有 的 内 存 管 理 错误 《比如 
内 存 泄漏 ) 。 这 些 错误 是 C 或 C++ 程 序 中 间 题 的 主要 来 源 之 一 。 人 们 开 
发 了 很 多 工具 来 帮助 程序 员 寻 找 内 存 管理 错误 。 比 如 ，Purify 是 一 个 能 
够 动态 地 捕 换 内 存 管理 错误 的 被 广泛 使 用 的 工具 。 还 有 一 些 能 够 帮助 静 
态 识别 部 分 此 类 错误 的 工具 也 已 经 被 开发 出 来 。 























1.6 程序 设计 语言 基础 


这 一 节 我 们 将 讨论 在 程序 设计 语言 的 研究 中 出 现 的 最 重要 的 术语 和 
它们 的 区 别 。 我 们 的 目标 并 不 是 涵盖 所 有 的 概念 或 所 有 常见 的 程序 设计 
语言 。 我 们 假设 读者 已 经 至 少 熟悉 C、C++、C# 或 Java 中 的 一 种 语言 ， 

并 且 也 可 能 已 经 遇 到 过 其 他 语言 。 








1.6.1 静态 和 动态 的 区 别 


在 为 一 个 语言 设计 一 个 编译 器 时 ， 我 们 所 面 对 的 最 重要 的 问题 之 一 
是 编译 器 能 够 对 一 个 程序 做 出 哪些 判定 。 如 果 一 个 语言 使 用 的 策略 文 持 
编译 占 静 态 决 定 某 个 问题 ， 那 么 我 们 说 这 个 语言 使 用 了 一 个 静态 
(static) 策略 ， 或 者 说 这 个 问题 可 以 在 编译 时 刻 〈compile time) 决 
定 。 男 一 方面 ， 一 个 只 允许 在 运行 程序 的 时 候 做 出 决定 的 策略 被 称 为 动 
态 策略 (dynamic policy) ， 或 者 被 认为 需要 在 运行 时 刻 〈run time) 做 


我 们 需要 注意 的 另 一 个 问题 是 声明 的 作用 域 。x 的 一 个 声明 的 作用 
域 (scope) 是 指 程 序 的 一 个 区 域 ， 在 其 中 对 x 的 使 用 都 指 问 这 个 声明 。 
如 果 仅 通过 阅读 程序 就 可 以 确定 一 个 声明 的 作用 域 ， 那么 这 个 语言 使 用 
的 是 静态 作用 域 (static scope) ， 或 者 说 词法 作用 域 (lexical scope) 。 
人 否则， 这 个 语言 使 用 的 是 动态 作用 域 dynamic scope) 。 如 果 使 用 动态 
作用 域 ， 当 程 序 运 行 时 ， 同 一 个 对 x 的 使 用 会 指 问 x 的 几 个 声明 中 的 某 一 
广 。 








大 部 分 语言 《比如 C 和 Java) 使 用 静态 作用 域 。 我 们 将 在 1.6.3 节 中 
讨论 静态 作用 域 。 


作为 静态 /动态 区 别 的 男 一 个 例子 ， 我 们 考虑 一 下 Java 类 声明 中 

培 static 的 使 用 。 这 个 术语 作用 于 数据 。 在 Java 中 ， 一 个 变量 是 用 于 存 
放 数 据 值 的 某 个 内 存 位 置 的 名 字 。 这 里 ，“static” 指 的 并 不 是 变量 的 作用 
域 ， 而 是 编译 器 确定 用 于 存放 被 声明 变量 的 内 存 位 置 的 能 力 。 比 如 声明 


public static int x; 


使 得 x 成 为 一 个 类 变量 (class variable) ， 也 就 是 说 不 管 创 建 了 多 少 个 这 
个 类 的 对 象 ， 只 存在 一 个 x 的 拷贝 。 此 外 ， 编 译 器 可 以 确定 内 存 中 的 被 
用 于 存放 整数 x 的 位 置 。 反 过 来 ， 如 果 这 个 声明 中 省 略 J 了 “static"， 那 么 
这 个 类 的 每 个 对 象 都 会 有 它 目 己 的 用 于 存放 x 的 位 置 ， 编 译 器 没有 办 法 
在 运行 程序 之 前 预先 确定 所 有 这 些 位置 。 





1.6.2 ”环境 与 状态 





我 们 在 讨论 程序 设计 语言 时 必须 了 解 的 万 一 个 重要 区 别 是 在 程序 运 
行 时 发 生 的 改变 是 否 会 影响 数据 元 际 的 值 ， 还 是 影响 了 对 那个 数据 的 名 
字 的 解释 。 比 如 ， 执 行 像 x=y+1 这 样 的 赋值 语句 会 改变 名 字 x 所 指 的 值 。 
更 加 明确 地 说 ， 这 个 赋值 改变 了 x 所 指向 的 内 存 位 置 上 的 值 。 


可 能 下 面 这 一 点 就 不 是 那么 明显 了 。 即 x 所 指 的 位 置 也 可 能 在 运行 
时 刻 改变 。 比 如 ， 我 们 在 例 1.3 中 讨论 过 ， 如 宁 x 不 是 一 个 静态 〈 或 者 
说 < 类”) 变量 ， 那 么 这 个 类 的 每 一 个 对 象 都 有 它 目 己 的 分 配给 变量 x 的 
实例 的 位 置 。 这 种 情况 下 ， 对 x 的 赋值 可 能 会 改变 那些 “实例 ”变量 中 的 
某 一 个 变量 的 值 ， 这 取决 于 包含 这 个 赋值 的 方法 作用 于 哪个 对 象 。 


名 字 和 内 存 ( 存 储 ) 位 置 的 关联 ， 及 之 后 和 值 的 关联 可 以 用 两 个 映 
财 来 插 述 。 这 两 个 映射 随 着 程序 的 运行 而 改变 〈( 见 图 1-8)。 


环境 状态 








名 字 内 存 位 置 值 
(变量 ) 
图 1-8 从 名 字 到 值 的 两 步 映 射 
1) 环境 (environment) 是 一 个 从 名 字 到 存储 位 置 的 映射 。 因 为 变 
量 就 是 指 内 存 位 置 〈( 即 C 语 言 中 的 术语 “ 左 值 *?) ， 我 们 还 可 以 换 一 种 方 
法 ， 把 环境 定义 为 从 名 字 到 变量 的 映射 。 


2) 状态 (state) 是 一 个 从 内 存 位 置 到 它们 的 值 的 映射 。 以 C 语 言 的 
术语 来 说 ， 即 状态 把 左 值 映射 为 它们 的 相应 右 值 。 





环境 的 改变 需要 遵守 语言 的 作用 域 规则 。 


罗阳 寺 虑 图 1-9 中 的 C 各 应 片 断 ， 丝 数 ! 坡 声明 为 一 个 全 局 变量 ， 同 时 
俄 声明 为 局 部 于 函数 {的 变量 。 执 行 { 时 ， 环 境 相 应 地 调整 ， 使 得 名 字 i 
指向 那个 为 局 部 于 f 的 那个 所 保留 的 存储 位 置 ， 且 的 所 有 使 用 (如 图 中 
明确 显示 的 赋值 语句 i=3) 都 指向 这 个 位 置 。 局 部 的 通常 被 赋予 一 个 运 
行 时 刻 栈 中 的 位 置 。 








int Es /* 全 局 i 水 / 


pe a 
int i; /* 局 部 i */ 
i - 3; /* 对 局 部 的 使 用 */ 
2 
/对 全 局 i 的 使 用 */ 





图 1-9 ”名 字 i 的 两 个 声明 


只 要 当 一 个 不 同 于 f 的 函数 g 运 行 时 ，i 的 使 用 就 不 能 指向 那个 局 部 于 
f 的 i。 在 函数 g 中 对 名 字 i 的 使 用 必须 位 于 其 他 某 个 对 i 的 声明 的 作用 域 
内 。 一 个 例子 是 图 中 明确 显示 的 赋值 语句 x=i+1， 它 位 于 某 个 其 定义 没 
有 在 图 中 显示 的 过 程 中 。 可 以 假定 i+1 中 的 ;指向 全 局 的 i。 和 大 多 数 语言 
一 样 ，C 语 言 中 的 声明 必须 先 于 其 使 用 ， 因 此 在 全 局 的 声明 之 前 的 函数 
不 能 指向 它 。 

图 1-8 中 的 环境 和 状态 映射 是 动态 的 ， 但 是 也 有 一 些 例外 。 

1) 名 字 到 位 置 的 静态 绑 定 与 动态 绑 定 。 大 部 分 从 名 字 到 位 置 的 绑 
定 是 动态 的 。 我 们 在 这 一 节 中 讨论 了 这 种 绑 定 的 几 种 方法 。 某 些 声明 
(比如 图 1-9 中 的 全 局 变量 i) 可 以 在 编译 器 生成 目标 代码 时 一 劳 永 逸 地 
分 配 一 个 存储 位 置 。 加 





2) 从 位 置 到 值 的 静态 绑 定 与 动态 绑 定 。 一 般 来 说 ， 位 置 到 值 的 绑 
定 〈 图 1-8 的 第 二 阶段 ) 也 是 动态 的 ， 因 为 我 们 无 法 在 运行 一 个 程序 之 
1 被 声明 的 癌 量 是 一 个 例外 。 比 如 ，C 语 言 的 定 
义 闻 名字 


#define ARRAYSIZE 1000 


ARRAYSIZE 静 态 地 绑 定 为 值 1000。 我 们 看 到 这 个 语句 就 可 以 知道 这 个 绑 
定 关 系 ， 并 且 知 道 在 程序 运行 时 刻 这 个 绑 定 不 可 能 改变 。 





1.6.3 ”静态 作用 域 和 块 结构 





包括 C 语 言 和 它 的 同类 语言 在 内 的 大 多 数 语 言 使 用 静态 作用 域 。C 
语言 的 作用 域 规则 是 基于 程序 结构 的 ， 一 个 声明 的 作用 域 由 该 声明 在 程 
序 中 出 现 的 位 置 隐 仿 地 决定 。 稍 后 出 现 的 语言 ， 比 如 C++、Java 和 C#， 
也 通过 诸如 public、private 和 protected 等 关键 字 的 使 用 ， 提 供 了 对 作用 
域 的 明确 控制 。 








在 本 节 中 ， 我 们 将 考虑 块 结构 语言 的 静态 作用 域 规 则 ， 其 中 块 
(block) 是 声明 和 语句 的 一 个 组 合 。C 使 用 括号 { 和 } 来 界定 一 个 块 。 另 
一 种 为 同一 目的 使 用 begin 和 end 的 方法 可 以 追溯 到 Algol。 





名 字 、 标 识 符 和 变量 


里 然 术 语 “ 名 字 ” 和 “变量 ”通常 指 的 龙 同 -个 事物 ， 我 们 还 是 要 很 
， 以 便 区 别 编译 时 刻 的 名 字 和 名 字 在 运行 时 刻 所 指 的 
子 位 置 。 


标识 符 (identifier〉 是 一 个 字符 串 ， 通 常 由 字母 和 数字 组 成 。 它 
用 来 指 加 (标记) 一 个 实体 ， 比 如 一 个 数据 对 象 、 过 程 、 类 ， 或 者 类 
型 。 所 有 的 标识 符 都 是 名 字 ， 但 并 不 是 所 有 的 名 字 都 是 标识 符 。 名 字 
也 可 以 是 一 个 表达 式 。 比 如 名 字 x.y 可 以 表示 x 所 指 的 一 个 结构 中 的 字 
段 y。 这 里 ，x 和 y 是 标识 符 ， 而 x.y 是 一 个 名 字 。 像 x.y 这 样 的 复合 名 字 
称 为 受 限 名 字 (qualified name) 。 























变量 指向 存储 中 的 某 个 特定 的 位 置 。 同 一 个 标识 符 被 多 次 声明 是 
很 常见 的 事情 ， 每 一 个 这 样 的 声明 引入 一 个 新 的 变量 。 即 使 每 个 标识 
和 从 只 被 声明 一 次 ， 一 个 递归 过 程 中 的 局 部 标识 符 将 在 不 同 的 时 刻 指 向 
不 同 的 存储 位 置 。 





C 语 言 的 静态 作用 域 策 略 可 以 概述 如 下 : 
1) 一 个 C 程 序 由 一 个 顶层 的 变量 和 函数 声明 的 序列 组 成 。 


2) 函数 内 部 可 以 声明 变量 ， 变 量 包 括 局 部 变量 和 参数 。 每 个 这 样 
的 声明 的 作用 域 被 限制 在 它们 所 出 现 的 那个 函数 内 。 

3) 名 字 X 的 一 个 项 层 声 明 的 作用 域 包 括 其 后 的 所 有 程序 。 但 是 如 宋 
一 个 函数 中 也 有 一 个 x 的 声明 ， 那 么 函数 中 的 那些 语句 就 不 在 这 个 顶层 
声明 的 作用 域内 。 


还 有 一 些 关 于 C 语 言 的 静态 作用 域 策略 的 细节 用 来 处 理 语句 中 的 变 
量 声明 。 我 们 将 在 接 下 来 的 内 容 中 ， 以 及 在 例 1.6 中 碍 看 这 样 的 声明 。 





过 程 、 函 数 和 方法 


为 了 避免 总 是 说 “过 程 、 函 数 或 方法 ”， 每 次 我 们 要 讨论 一 个 可 以 
被 调用 的 子 程序 时 ， 我 们 通常 把 它们 统称 为 “过 程 "。 但 是 当 明 确 地 讨 
论 茶 个 语言 《比如 C) 的 程序 时 有 一 个 例外 。 因 为 C 语 言 只 有 函数 ， 
所 以 我 们 把 它们 称 为 “函数 "。 或 者 ， 如 果 我 们 讨论 像 Java 这 样 的 只 
有 “方法 ”的 语言 时 ， 我 们 就 使 用 这 个 术语 。 











一 个 函数 通常 返回 茶 个 类 型 〈 即 “返回 类 型 >) 的 值 ， 而 一 个 过 程 
不 返回 任何 值 。C 和 类 似 的 语言 只 有 函数 ， 因 此 它们 把 过 程 当 作 是 具 
有 特殊 返回 类 型 “void” 的 函数 来 处 理 。“void” 表 示 没 有 返回 值 。 像 
Java 和 和 C++ 这样 的 面向 对 象 语言 使 用 术语 “方法 "?。 这 些 方法 可 以 像 函 
数 或 者 过 程 一 样 运 行 ， 但 是 总 是 和 茶 个 特定 的 类 相关 联 。 











在 C 语 言 中 ， 有 关 块 的 语法 如 下 : 


1) 块 是 一 种 语句 。 块 可 以 出 现在 其 他 类 型 的 语句 《比如 赋值 语 
句 ) 所 能 够 出 现 的 任何 地 方 。 


2) 一 个 块 包 含 了 一 个 声明 的 序列 ， 然 后 再 跟 独 一 个 语句 序列 。 这 
些 声 明和 语句 用 一 对 括号 包围 起 来 。 


注意 ， 这 个 语法 允许 一 个 块 观 套 在 另 一 个 块 内 。 这 个 藤 套 特性 称 为 
块 结构 (block structure) 。C 族 语言 都 具有 块 结构 ， 但 是 不 能 在 一 个 函 
数 内 部 定义 男 一 个 函数 。 


如 果 块 B 是 包含 声明 D 的 最 内 层 的 块 ， 那 么 我 们 说 D 属 于 B。 也 就 是 
说 ，D 在 B 中 ， 且 不 在 拘 套 于 B 中 的 任何 其 他 块 中 。 


在 一 个 块 结构 语言 中 ， 关 于 变量 声明 的 静态 作用 域 规则 如 下 。 如 果 
名 字 X 的 声明 D 属 于 块 B， 那 么 D 的 作用 域 包括 整个 B， 但 是 以 任意 深度 
冉 套 在 B 中 、 重 新 声明 了 x 的 所 有 块 B' 不 在 此 作用 域 中 。 这 里 ，x 在 B' 中 
重新 声明 是 指 存在 另 一 个 属于 B' 的 对 相同 名 字 x 的 声明 D'。 


为 一 个 等 价 的 表达 这 个 规则 的 方法 着 眼 于 名 字 x 的 一 次 使 用 。 设 
B1，B2，.…，Bk 是 所 有 的 包含 了 x 的 该 次 使 用 的 块 。 其 中 ，Bk 绞 套 在 Bl 
1 中 ，Bli 般 套 在 Bt 中 ，…， 依 此 类 推 。 寻 找 最 大 的 满足 下 面条 件 的 i: 
存在 一 个 属于 Bi 的 x 的 声明 。 本 次 对 x 的 使 用 就 是 指向 Bi 中 对 x 的 声明 。 

换 句 话说 ，x 的 本 次 使 用 在 Bi 中 的 这 个 声明 的 作用 域内 。 


在 图 1-10 中 的 C++ 程序 有 四 个 块 ， 其 中 包含 了 变量 a 和 b 的 几 个 
定义 。 为 了 帮助 记忆 ， 每 个 声明 把 其 变量 初始 化 为 它 所 属于 的 那个 块 的 
编号 。 
















































int a = 3; 
cout << a << b; 






int b = 4; 
cout << a << b; 





\ cout << a << b; 





} 
cout << a 《< b; 


图 1-10 ”一 个 C+t+ 程 序 中 的 块 结 构 


已 





比如 ， 考 虑 块 Bj 中 的 声明 int a=1。 它 的 作用 域 包 括 整 个 B1， 当 然 





那些 《可 能 很 深 地 ) 共 套 在 Bi 中 并 且 有 它 目 己 的 对 a 的 声明 的 块 除外 。 

直接 租 套 在 Bi 中 的 B? 没 有 a 的 声明 ， 而 B3 束 有 。B4 没 有 a 的 声明 。 因 此 块 
B3 是 整个 程序 中 唯一 位 于 名 字 a 在 Bi 中 的 声明 的 作用 域 之 外 的 地 方 。 也 
就 是 说， 这 个 作用 域 包括 B4 和 B2> 中 除了 B3 之 外 的 所 有 部 分 。 关 于 程序 中 








的 全 部 五 个 声明 的 作用 域 的 总 结 见 图 1-11。 


作用 域 








图 1-11 例 1.6 中 的 声明 的 作用 域 





从 另 一 个 角度 看 ， 让 我 们 考虑 块 Bs 中 的 输出 语句 ， 并 把 那里 使 用 的 





变量 a 和 b 和 适当 的 声明 绑 定 。 包 含 该 语句 的 块 的 列表 从 小 到 大 是 B4、 
B>、Bi1。 请 注意 ，B3 没 有 包含 问题 中 所 提 到 的 点 。B4 有 一 个 b 的 声明 ， 
因此 该 语句 中 对 b 的 使 用 被 绑 定 到 这 个 声明 ， 因 此 打印 出 来 的 b 的 值 是 
4。 然 而 ，B4 没 有 a 的 声明 ， 因 此 我 们 接着 看 B*。 这 个 块 也 没有 a 的 声 
明 ， 因 此 我 们 继续 看 B1。 和 幸运 的 是 ， 这 个 块 有 一 个 声明 int a = 1。 
此 ， 打 印 出 来 的 a 的 值 是 1。 如 果 没 有 这 个 声明 ， 程 序 就 是 错误 的 。 


1.6.4 显 式 访问 控制 


类 和 结构 为 它们 的 成 员 引 入 了 新 的 作用 域 。 如 果 p 是 一 个 具有 字段 
(成 员 ) x 的 类 的 对 象 ， 那 么 在 p.x 中 对 x 的 使 用 指 的 是 这 个 类 定义 中 的 
字段 x。 和 块 结构 类 似 ， 类 C 中 的 一 个 成 员 声 明 x 的 作用 域 可 以 扩展 到 所 
有 的 子 类 C'"， 除 非 C' 有 一 个 本 地 的 对 同一 名 字 x 的 声明 。 


通过 public、private 和 protected 这 样 的 关键 字 的 使 用 ， 像 C++ 或 
Java 这 样 的 面 回 对 象 语言 提供 了 对 超 类 中 的 成 员 名 字 的 显 式 访 问 控制 。 
这 些 关 键 字 通过 限制 访问 来 文 持 封装 〈encapsulation) 。 因 此 ， 私 有 
(private〉 名 字 被 有 意 地 限定 了 作用 域 ， 这 个 作用 域 仅 仅 包 含 了 该 类 
和 “ 友 类 ”(C++ 的 术语 ) 相关 的 方法 声明 和 定义 。 被 保护 的 
Cprotected) 名 字 可 以 由 子 类 访问 ， 而 公共 的 〈public) 名 字 可 以 从 类 
外 访问 。 




















在 C++ 中 ， 一 个 类 的 定义 可 能 和 它 的 部 分 或 全 部 方法 的 定义 分 离 。 
因此 对 于 一 个 和 类 C 相 关联 的 名 字 x， 可 能 存在 一 个 在 它 作用 域 之 外 的 代 
码 区 域 ， 然 后 又 跟着 一 个 在 它 作 用 域内 的 代码 区 域 (一 个 方法 定义 )。 
实际 上 ， 在 这 个 作用 域 之 内 和 之 外 的 代码 区 域 可 能 相互 交 蔡 ， 直 到 所 有 
的 方法 都 被 定义 完毕 。 








声明 和 定义 


程序 设计 语言 概念 中 的 两 个 看 起 来 相似 的 术语 “声明 ”和 “定义 ” 实 
际 上 有 着 很 大 的 不 同 。 声 明 告 诉 我 们 事物 的 类 型 ， 而 定义 告诉 我 们 它 
们 的 值 。 因 此 ，int i 是 一 个 i 的 声明 ， 而 i=1 是 i 的 一 个 定义 〈 定 


值 ) 。 


当 我 们 处 理 方法 或 者 其 他 过 程 时 ， 这 个 区 别 就 更 加 明显 。 在 
C++ 中 ， 通 过 给 出 了 方法 的 参数 及 结果 的 类 型 〈 通 常 称 为 该 方法 的 范 





型 ) ， 在 类 的 定义 中 声明 这 个 方法 。 然 后 ， 这 个 方法 在 另 一 个 地 方 被 
定义 ， 即 在 另 一 个 地 方 给 出 了 执行 这 个 方法 的 代码 。 类 似 地 ， 我 们 会 
经 党 看 到 在 一 个 文件 中 定义 了 一 个 C 语 言 的 函数 ， 然 后 在 其 他 使 用 这 
个 函数 的 文件 中 声明 这 个 函数 。 





1.6.5 ”动态 作用 域 


从 技术 上 讲 ， 如 果 一 个 作用 域 策略 依赖 于 一 个 或 多 个 只 有 在 程序 执 
行 时 刻 才 能 知道 的 因素 ， 它 就 是 动态 的 。 然 而 ， 术 语 动 态 作 用 域 通常 指 
的 是 下 面 的 策略 : 对 一 个 名 字 x 的 使 用 指 癌 的 是 最 近 被 调用 但 还 没有 终 
止 且 声明 了 x 的 过 程 中 的 这 个 声明 。 这 种 类 型 的 动态 作用 域 仅仅 在 一 些 
特殊 情况 下 才 会 出 现 。 我 们 将 考虑 两 个 动态 作用 域 的 例子 : C 预 处 理 器 
中 的 宏 扩展 ， 以 及 面向 对 象 编程 中 的 方法 解析 。 
在 图 1-12 给 出 的 C 程 序 中 ， 标 识 符 a 是 一 个 代表 了 表达 式 (x+1) 
0 
) 解析 X。 











#define a (x+1) 


int x = 2; 

old bl { jut gs ls Wintt( Ma" a); } 
void ety * primvett" dna ws 

void main() { by ce();} 





图 1-12 一 个 其 名 字 的 作用 域 必 须 动态 确定 的 宏 


实际 上 ， 为 了 解析 x， 我 们 必须 使 用 前 面 提 到 的 普通 的 动态 作用 域 


规则 。 我 们 检查 所 有 当前 活跃 的 函数 调用 ， 然 后 选择 最 近 调 用 的 且 具 有 
一 个 对 x 的 声明 的 函数 加。 对 x 的 使 用 就 是 指向 这 个 声明 。 


在 图 1-12 的 例子 中 ， 函 数 main 首 先 调用 函数 b。 当 b 执 行 时 打印 宏 a 
的 值 。 因 为 首先 必须 用 (x+1)〉 丛 换 挥 a， 所 以 我 们 把 本 次 对 x 的 使 用 解 
析 为 对 函数 b 中 的 声明 int x=1。 原 因 是 b 有 一 个 x 的 声明 ， 因 此 b 中 的 
printf 中 的 (x+1) 指 向 这 个 x。 因 此 ， 打 印 出 的 值 是 2。 


在 b 运 行 结束 之 后 ， 函 数 c 被 调用 ， 我 们 依旧 需要 打印 宏 a 的 值 。 然 
而 ， 唯 一 可 以 被 c 访 问 的 x 是 全 局 变量 x。 函 数 c 中 的 printf 语 句 指 网 x 的 
这 个 声明 ， 且 被 打印 的 值 是 3。 


动态 作用 域 解析 对 多 态 过 程 是 必 不 可 少 的 。 所 谓 多 态 过 程 是 指 对 于 
同一 个 名 字 根 据 参 数 类 型 具有 两 个 或 多 个 定义 的 过 程 。 在 有 些 语言 中 ， 
比如 ML 〈 见 7.3.3 节 ) ， 人 们 可 以 静态 地 确定 名 字 所 有 使 用 的 类 型 。 在 
这 种 情况 下 ， 编 译 器 可 以 把 每 个 名 字 为 p 的 过 程 蔡 换 为 对 相应 的 过 程 代 
码 的 引用 。 但 是 ， 在 其 他 语言 中 ， 比 如 在 Java 和 C++ 中 ， 编 译 器 有 时 不 
能 够 做 出 这 样 的 决定 。 

















静态 作用 域 和 动态 作用 域 的 类 比 


虽然 可 以 有 各 种 各 样 的 静态 或 者 动态 作用 域 策 略 ， 在 通常 的 〈 块 
结构 的 ) 静态 作用 域 规则 和 通 千 的 动态 策略 之 间 有 一 个 有 趣 的 关系 。 





从 茶 种 意义 上 说 ， 动 态 规则 处 理 时 间 的 方式 类 似 于 静态 作用 域 处 理 空 
闻 的 方式 。 静 态 规则 让 我 们 寻找 的 声明 位 于 最 内 层 的 、 包 含 变量 使 用 
位 置 的 单元 ( 块 》 中 ; 而 动态 规则 让 我 们 寻找 的 声明 位 于 最 内 层 的 、 
包含 了 变量 使 用 时 间 的 单元 “过程 调用 〉 中。 








面 问 对 象 语言 的 一 个 突出 特征 束 古 每 个 对 象 能 够 对 一 个 消 恩 做 
后 当 有 反应， 调用 相应 的 方法 。 换 句 话 说 ,执行 x.mO 时 调用 哪个 过 程 要 
由 当时 x 所 指 问 的 对 象 的 类 来 决定 。 一 个 典型 的 例子 如 下 : 


1) 有 一 个 类 C， 它 有 一 个 名 字 为 m() 的 方法 。 


2) D 是 C 的 一 个 子 类 ， 而 D 有 一 个 它 目 己 的 名 字 为 m0 的 方法 。 
3) 有 一 个 形 如 x.m() 的 对 x 的 使 用 ， 其 中 x 是 类 C 的 一 个 对 象 。 


正常 情况 下 ， 在 编译 时 刻 不 可 能 指出 x 指 辣 的 是 类 C 的 对 象 还 是 其 子 
类 DD 的 对 象 。 如 果 这 个 方法 被 多 次 应 用 ， 那 么 很 可 能 共 些 调用 作用 在 由 
x 指向 的 类 C 的 对 象 ， 而 不 是 类 DD 的 对 象 ， 而 其 他 调用 作用 于 类 DD 的 对 象 
之 上 。 只 有 到 了 运行 时 刻 才 可 能 决定 应 当 调 用 m 的 哪个 定义 。 因 此 ， 编 
ee 
方法 。 





1.6.6 ”参数 传递 机 制 





所 有 的 程序 设计 语言 都 有 关于 过 程 的 概念 ， 但 是 在 这 些 过 程 如 何 获 
取 它 们 的 参数 方面 ， 不 同 的 语言 之 间 有 所 不 同 。 在 本 节 ， 我 们 将 考虑 实 
在 参数 (在 调用 过 程 时 使 用 的 参数 ) 是 如 何 与 形式 参数 〈 在 过 程 定义 中 
使 用 的 参数 ) 关联 起 来 的 。 使 用 哪 一 种 传递 机 制 决定 了 调用 代码 序列 如 
何 处 理 参数 。 大 多 数 语言 要 么 使 用 " 值 调用 ”， 要 么 使 用 “引用 调用 ”， 或 
者 两 者 都 用 。 我 们 将 解释 这 些 术 语 以 及 男 一 个 被 称 为 “名 调用 ”的 方法 ， 
解释 后 者 主要 是 基于 对 历史 的 兴趣 。 


值 调用 


在 值 调 用 〈call-by-value) 中 ， 会 对 实在 参数 求 值 (如果 它 是 表达 
式 ) 或 拷贝 《如 果 它 是 变量 ) 。 这 些 值 被 放 在 属于 被 调用 过 程 的 相应 形 
式 参 数 的 内 存 位 置 上 。 这 种 方法 在 C 和 Java 中 使 用 ， 也 是 C++ 语言 及 大 
部 分 其 他 语言 的 一 个 常用 选项 。 值 调用 的 效果 是 ， 被 调用 过 程 所 做 的 所 
人 
改作 。 


然而 请 注意 ， 在 C 语 言 中 我 们 可 以 传递 变量 的 一 个 指针 ， 使 得 该 变 
量 的 值 能 够 被 被 调用 者 修改 。 同 样 ，C、C++ 和 Java 中 作为 参数 传递 的 
数组 名 字 实 际 上 疝 被 调用 过 程 传递 了 一 个 指 问 该 数组 本 里 的 指针 或 引 
用 。 因 此 ， 如 果 a 是 调用 过 程 的 一 个 数组 的 名 字 ， 且 它 锐 以 值 调 用 的 方 
式 传 递 给 相应 的 形式 参数 x， 那 么 像 x [2] =i 这 样 的 赋值 语句 实际 上 改变 
了 数组 元 素 a [让 。 原 因 是 虽然 zx 是 a 的 值 的 一 个 拷贝 ， 但 这 个 值 实 际 上 




















古 一 个 指针 ， 指 疝 被 分 配给 数组 a 的 存储 区 域 的 开始 处 。 


类 似 地 ，Java 中 的 很 多 变量 实际 上 是 对 它们 所 代表 的 事物 的 引用 ， 
或 者 说 指针 。 这 个 络 论 对 数组 、 字 符 串 和 所 有 类 的 对 象 都 有 效 。 虽 然 
Java 只 使 用 值 调用 ， 但 只 要 我 们 把 一 个 对 象 的 名 字 传 递 给 一 个 被 调用 过 
程 ， 那 个 过 程 收 到 的 值 实际 上 是 这 个 对 象 的 指针 。 因 此 ， 被 调用 过 程 是 
可 以 改变 这 个 对 象 本 身 的 值 的 。 


引用 调用 


在 引用 调用 〈call-by-reference) 中 ， 实 在 参数 的 地 址 作为 相应 的 形 
式 参 数 的 值 被 传递 给 被 调用 者 。 在 被 调用 者 的 代码 中 使 用 形式 参数 时 ， 
实现 方法 是 沿 着 这 个 指针 找到 调用 者 指明 的 内 存 位 置 。 因 此 ， 改 变形 式 
参数 看 起 来 就 像 是 改变 了 实在 参数 一 样 。 


但 是 ， 如 果实 在 参数 是 一 个 表达 式 ， 那 么 在 调用 之 前 首先 会 对 表达 
式 求 值 ， 然 后 它 的 值 被 存放 在 一 个 该 值 自己 的 位 置 上 。 改 变形 式 参 数 会 
改变 这 个 位 置 上 的 值 ， 但 对 调用 者 的 数据 没有 影响 。 


C++ 中 的 “ref” 参 数 使 用 的 是 引用 调用 。 而 在 很 多 其 他 语言 中 ， 引 用 
调用 也 是 一 种 选项 。 当 形式 参数 是 一 个 大 型 的 对 象 、 数 组 或 结构 时 ， 引 
用 调用 几乎 是 必 不 可 少 的 。 原 因 是 严格 的 值 调用 要 求 调用 者 把 整个 实在 
参数 拨 贝 到 属于 相应 形式 参数 的 空间 上 。 当 参数 很 大 时 ， 这 种 找 贝 可 能 
代价 高 晶 。 正 如 我 们 在 讨论 值 调 用 时 所 指出 的 ， 像 Java 这 样 的 语言 解决 
数组 、 字 符 串 和 其 他 对 象 的 参数 传递 问题 的 方法 是 仅仅 复制 这 些 对 象 的 
引用 。 结 果 是 ，Java 运 行 时 就 好 像 它 对 所 有 不 是 基本 类 型 (比如 整数 、 
实数 等 ) 的 参数 都 使 用 了 引用 调用 。 


名 调用 


第 三 种 机 制 一 一 名 调用 一 一 被 早期 的 程序 设计 语言 Algol 60 使 用 。 
它 要 求 被 调用 者 的 运行 方式 好 像 是 用 实在 参数 以 字面 方式 答 换 了 被 调用 
者 的 代码 中 的 形式 参数 一 样 。 这 么 做 就 好 像 形 式 参数 是 一 个 代表 了 实在 
参数 的 宏 。 当 然 极 调用 过 程 的 局 部 名 字 需 要 进行 重合 名， 以 便 把 它们 和 
调用 者 中 的 名 字 区 别 开 来 。 当 实在 参数 是 一 个 表达 式 而 不 是 一 个 变量 
0 
之 到 
































1.6.7 别名 


引用 调用 或 者 其 他 类 似 的 方法 ， 比 如 像 Java 中 那样 把 对 象 的 引用 当 
作 值 传递 ， 会 引起 一 个 有 趣 的 结果 。 有 可 能 两 个 形式 参数 指向 同一 个 位 
置 ， 这 样 的 变量 称 为 男 一 个 变量 的 别名 〈alias) 。 结 果 是 ， 任 意 两 个 看 
起 来 从 两 个 不 同 的 形式 参数 中 获得 值 的 变量 也 可 能 变 成 对 方 的 别名 。 


假设 a 是 一 个 属于 某 个 过 程 p 的 数组 ， 且 p 通 过 调用 语句 q (a， 
a) 调用 了 男 一 个 过 程 q (x,，y) 。 再 假设 像 C 语 言 或 类 似 的 语言 那样 ， 
参数 是 通过 值 传递 的 ， 但 数组 名 实际 上 是 指 回 数 组 存放 位 置 的 引用 。 现 
在 ，Xx 和 y 变 成 了 对 方 的 别名 。 要 点 在 于 ， 如 果 q 中 有 一 个 赋值 语句 
x [19] =2， 那 么 y [10j] 的 值 也 是 2。 


事实 上 ， 如 果 编 译 堪 要 优化 一 个 程序 ， 就 要 理解 别名 现象 以 及 产生 
这 一 现象 的 机 制 。 正 如 我 们 从 第 9 章 看 到 的 ， 在 很 多 情况 下 我 们 必须 在 
确认 东 些 变量 相互 之 间 不 是 别名 之 后 才 可 以 优化 程序 。 比 如 ， 我 们 可 能 
确定 x=2 是 变量 x 唯 一 被 赋值 的 地 方 。 如 果 是 这 样 ， 那 么 我 们 可 以 把 对 x 
的 使 用 符 换 为 对 2 的 使 用 。 比 如 ， 把 a=x+3 蔡 换 为 较 简 单 的 a=5。 但 是 ， 
假设 有 另 一 个 变量 y 是 x 的 别名 。 那 么 ， 一 个 赋值 语句 y=4 可 能 具有 意 想 
不 到 的 改变 x 的 值 的 效果 。 这 可 能 也 意味 着 把 a=x+3 荃 换 为 a=5 是 一 个 错 
误 ， 此 时 ，a 的 正确 值 可 能 是 7。 




















1.6.8 1.6 节 的 练习 


练习 1.6.1: 对 图 1-13a 中 的 块 结构 的 C 代 码 ， 指 出 赋 给 w、x、y 和 z 的 
值 8 





a) 练习 1.6.1 的 代码 b) 练习 1.6.2 的 代码 
图 1-13” 块 结构 代码 


练习 1.6.2: 对 图 1-13b 中 的 代码 重复 练习 1.6.1。 


练习 1.6.3: 对 于 图 1-14 中 的 块 结构 代码 ， 假 设 使 用 常见 的 声明 的 绩 
态 作 用 域 规则 ， 给 出 其 中 12 个 声明 中 的 每 一 个 的 作用 域 。 





{ dab wh Kr Fi /* 块 B1 */ 
/* 块 B2 */ 
{ int w, xi /* 块 B3 */ } 
上 
4 “和 /* 块 B4 */ 
{ int y, z; /* 块 B5 */ } 
} 





图 1-14 练习 1.6.3 的 块 结构 代码 


练习 1.6.4: 下 面 的 C 代 码 的 打印 结果 是 什么 ? 


#define a (x+1) 

Lib A = 

vold b(}) A % wa printi(t"ndun™, ws F 
TO ery 4. dnb = Py printt QM ajx 3 
ved main() { BOI Cys + 


1.7 第 1 童 总 结 


语言 处 理 器 : 一 个 集成 的 软件 开发 环境 ， 其 中 包括 很 多 种 类 的 语言 
处 理 器 ， 比 如 编译 器 、 解 释 器 、 汇 编 器 、 连 接 器 、 加 载 器 、 调 试 器 
以 及 程序 概要 提取 工具 。 
编译 器 的 步骤 : 一 个 编译 器 的 运作 需要 一 系列 的 步骤 ， 每 个 步骤 把 
源 程 序 从 一 个 中 间 表 示 转 换 成 为 另 一 个 中 间 表 示 。 
机 器 语言 和 汇编 语言 : 机 器 语言 是 第 一 代 程 序 设计 语言 ， 然 后 是 汇 
编 语言 。 使 用 这 些 语言 进行 编程 既 费 时 ， 叉 容易 出 错 。 
编译 器 设计 中 的 建 模 : 编译 器 设计 是 理论 对 实践 有 很 大 影响 的 领域 
之 一 。 已 知 在 编译 器 设计 中 有 用 的 模型 包括 自动 机 、 文 法 、 正 则 表 
达 式 、 树 型 结构 和 很 多 其 他 理论 概念 。 
代码 优化 : 虽然 代码 不 能 真正 达到 最 优化 ， 但 提高 代码 效率 的 科学 
既 复杂 又 非常 重要 。 它 是 编译 技术 研究 的 一 个 主要 部 分 。 
高 级 语言 : 随 着 时 间 的 流逝 ， 程 序 设 计 语 言 担 负 了 越 来 越 多 的 原先 
nn 
全 
编译 器 和 计算 机 体系 结构 : 编译 器 技术 影响 了 计算 机 的 体系 结构 ， 
同时 也 受到 体系 结构 发 展 的 影响 。 体 系 结构 中 的 很 多 现代 创新 都 依 
赖 于 编译 器 能 够 从 源 程序 中 抽取 出 有 效 利 用 硬件 能 力 的 机 会 。 
软件 生产 率 和 软件 安全 性 : 使 得 编译 器 能 够 优化 代码 的 技术 同样 能 
够 用 于 多 种 不 同 的 程序 分 析 任 务 。 这 些 任 务 既 包括 探测 常见 的 程序 
ee 
之 一 的 伤害 。 
作用 域 规则 : 一 个 x 的 声明 的 作用 域 是 一 段 上 下 文 ， 在 此 上 下 文中 
对 x 的 使 用 指 问 这 个 声明 。 如 果 仪 仅 通 过 阅读 某 个 语言 的 程序 就 可 
以 确定 其 作用 域 ， 那 么 这 个 语言 就 使 用 了 静态 作用 域 ， 或 者 说 词法 
作用 域 。 否 则 这 个 语言 就 使 用 了 动态 作用 域 。 
环境 : 名 字 和 内 存 位 置 关 联 ， 然 后 再 和 值 相 关联 。 这 个 情况 可 以 使 
用 环境 和 状态 来 描述 。 其 中 环境 把 名 字 映 射 成 为 存储 位 置 ， 而 状态 
则 把 位 置 映射 到 它 的 值 。 
块 结构 : 允许 语句 块 相 互 舱 套 的 语言 称 为 块 结构 的 语言 。 假 设 一 个 
块 中 有 一 个 x 的 声明 D， 而 舱 套 于 这 个 块 中 的 块 B 中 有 一 个 对 名 字 x 
的 使 用 。 如 果 在 这 两 个 块 之 间 没 有 其 他 声明 了 x 的 块 ， 那 么 这 个 x 的 
使 用 位 于 D 的 作用 域内 。 

















。 参数 传递 : 参数 可 以 通过 值 或 引用 的 方式 从 调用 过 程 传递 给 被 调用 
过 程 。 当 通过 值 传递 方式 传递 大 型 对 象 时 ， 实 际 被 传递 的 值 是 指 回 
这 些 对 象 本 里 的 引用 。 这 样 就 变 成 了 一 个 蜗 效 的 引用 调用 。 

别名 : 当 参 数 被 以 引用 传递 方式 (高 效 地 ) 传递 时 ， 两 个 形式 参数 
人 器 同一 个 对 象 。 这 会 造成 一 个 变量 的 修改 改变 了 为 一 个 变 
量 的 值 。 
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[1 和 从 技术 上 讲 ， 我 们 应 该 为 语法 单元 60 建 立 一 个 形 如 《number， 
4》 的 词法 单元 ， 其 中 4 指向 符号 表 中 对 应 于 整数 60 的 条 目 。 但 是 我 们 要 
到 第 2 章 中 才 讨 论 数字 的 词法 单元 。 第 3 章 将 讨论 建立 词法 分 析 器 的 技 
木 。 


[21 从 技术 上 来 讲 ，0 语 言 编 译 器 将 为 全 局 变量 i 分 配 一 个 虚拟 内 存 


中 的 位 置 ， 而 由 程序 装载 器 和 操作 系统 来 决定 到 底 把 i 分 配 在 机 器 的 物 
理 地 址 中 的 什么 地 方 。 但 是 我 们 不 用 担心 像 这 样 的 “重新 分 配 ” 问 题 ， 
因为 它 对 编译 过 程 没有 影响 。 我 们 按照 如 下 的 方式 处 理 地 址 空间 问题 : 
编译 器 在 为 它 的 输出 代码 使 用 地 址 空间 时 ， 假 设 它 是 在 分 配 物理 内 存 位 
置 。 


[3]1 这 个 规则 可 能 只 对 当前 的 例子 成 立 。 如 果 将 图 1-12 的 例子 中 的 
承 数 pb 改 成 void b(){fint x=1; printf ("%d\n", a) ; c(); }， 那 么 当 main 
函数 调用 也 数 b， 取 数 b 又 调用 c 的 时 候 ，c 中 的 printf ("%d\n", a) 语句 
依然 打印 值 2。 即 此 时 对 x 的 使 用 对 应 的 仍然 是 全 局 的 x， 而 不 是 按照 规 
则 确定 的 克 数 bp， 即 “最 近 调 用 的 且 有 一 个 对 x 的 声明 的 池 数 ”。 译 
者 注 





第 2 草 ”一 个 简单 的 语法 制导 翻译 融 


本 章 的 内 容 是 对 本 书 第 3 章 至 第 6 章 中 介绍 的 编译 技术 的 总 体 介 绍 。 
通过 开发 一 个 可 运行 的 Java 程 序 来 演示 这 些 编译 技术 。 这 个 程序 可 以 将 
具有 代表 性 的 程序 设计 语言 语句 翻译 为 三 地 址 代码 〈 一 种 中 间 表 示 形 
式 ) 。 本 章 的 重点 是 编译 器 的 前 端 ， 特 别 是 词法 分 析 、 语 法 分 析 和 中 间 
代码 生成 。 在 第 7 章 和 第 8 章 将 介绍 如 何 根据 三 地 址 代码 生成 机 器 指令 。 

我 们 从 小 事 做 起 ， 首 先 建立 一 个 能 够 将 中 绥 算 术 表 达 式 转换 为 后 绥 
表达 式 的 语法 制导 翻译 器 。 然 后 我 们 将 扩展 这 个 翻译 器 ， 使 它 能 将 某 些 
程序 片段 〈 如 图 2-1 所 示 ) 转换 为 如 图 2-2 所 示 的 三 地 址 代码 。 











int i; int j; float[100] a; float v; float x; 


while ( true ) { 
do i = i+1; while ( a[i] < v ); 


do j = j-1; while ( a[j] > v ); 
if ( i >= j ) break; 
x = a[li]; a[i] = a[j]; a[j] = x; 





图 2-1 一 个 将 被 翻译 的 代码 片段 


tlt=a[ij] 
了 
se 
t2=a[j]】 

if t2 > v goto 4 
ifFalse i >= j goto 9 
goto 14 
x=alLtil] 
t3=a[Lj]j 
-i 
a[j]=x 

goto 1 


1: 
2 
3 
4: 
5: 
06: 
1 
8: 





图 2-2 与 图 2-1 中 程序 片段 对 应 的 经 过 简化 的 中 间 代 码 表 示 


这 个 可 运行 的 Java 程 序 见 附录 A。 使 用 Java 比 较 方便 ， 但 并 非 必须 
用 Java。 实 际 上 ， 本 章 中 描述 的 思想 在 Java 和 C 语 言 出 现 之 前 就 存在 
本 


2.1 引言 


编译 器 在 分 析 阶 段 把 一 个 源 程序 划分 成 各 个 组 成 部 分 ， 并 生成 源 程 
序 的 内 部 表示 形式 。 这 种 内 部 表示 称 为 中 间 代 码 。 然 后， 编译 露 在 合成 
阶段 将 这 个 中 间 代 码 翻译 成 目标 程序 。 


分 析 阶 段 的 工作 是 围绕 着 竺 编译 语言 的 “语法 ”展开 的 。 一 个 程序 设 
计 语言 的 语法 syntax) 描述 了 该 语言 的 程序 的 正确 形式 ， 而 该 语言 的 
语义 〈semantics) 则 定义 了 程序 的 含义 ， 即 每 个 程序 在 运行 时 做 什么 事 
情 。 我 们 将 在 2.2 节 中 给 出 一 个 广 范 使 用 的 表示 方法 来 描述 语法 ， 这 个 
方法 就 是 上 下 文 无 关 文 法 或 BNF (Backus-Naur 范 式 ) 。 使 用 现 有 的 语 
义 表示 方法 来 描述 一 个 语言 的 语义 的 难度 远 远大 于 描述 语言 的 语法 的 难 
度 。 因 此 ， 我 们 将 结合 非 形式 化 描述 和 局 发 性 的 示例 来 描述 语言 的 语 
> 


上 下文 无 关 文 法 不 仅 可 以 描述 一 个 语言 的 语法 ， 还 可 以 指导 程序 的 
翻译 过 程 。 在 2.3 节 中 ， 我 们 将 介绍 一 种 面 癌 文法 的 编译 技术 ， 即 语法 
制导 翻译 (syntax-directed translation ) 技术 。 语 法 扫描 ， 或 者 说 语法 分 
析 ， 将 在 2.4 节 中 介绍 。 


本 章 的 其 余部 分 将 快速 浏览 一 下 图 2-3 所 示 的 编译 器 前 端 模型 。 我 
们 将 首先 介绍 语法 分 析 器 。 为 简单 起 见 ， 我 们 首先 考虑 从 中 级 表达 式 到 
后 绥 表 达 式 的 语法 制导 翻译 过 程 。 后 绥 表 达 式 是 一 种 将 运算 符 置 于 运算 
分 量 之 后 的 表示 方法 。 例 如 ， 表 达 式 9-5+2 的 后 缀 形式 是 95-2+。 将 表达 
式 翻 译 为 后 级 形式 的 过 程 可 以 充分 演示 语法 分 析 技 术 ， 同 时 这 个 翻译 过 
程 又 很 简单 ， 我 们 将 在 2.5 节 中 给 出 这 个 翻译 器 的 全 部 程序 。 这 个 简单 
的 翻译 器 处 理 的 表达 式 是 由 加 、 减 号 分 隔 的 数位 序列 ， 如 9-5+2。 我 们 
之 所 以 先 考 虑 这 样 的 简单 表达 式 ， 主 要 目的 是 简化 这 个 语法 分 析 器 ， 使 
得 它 在 处 理 运 算 分 量 和 运算 符 时 只 需要 考虑 单个 字符 。 


词法 分 析 器 本 有 






































图 2-3 一 个 编译 器 前 端的 模型 


词法 分 析 器 使 得 翻译 器 可 以 处 理由 多 个 字符 组 成 的 构造 ， 比 如 标识 
符 。 标 识 符 由 多 个 字符 组 成 ， 但 是 在 语法 分 析 阶 段 被 当 作 一 个 单元 进行 
处 理 。 这 样 的 单元 称 作 词法 单元 (token) 。 例 如 ， 在 表达 式 count+1 
中 ， 标 识 符 count 被 当 作 一 个 单元 。2.6 节 中 介绍 的 词法 分 析 器 允许 表达 
式 中 出 现 数值 、 标 识 符 和 “空白 字符 ”( 空 格 、 制 表 符 和 换行 符 ) 。 


接 下 来 我 们 考虑 中 间 代 码 的 生成 。 在 图 2-4 中 显示 了 两 种 中 间 代 码 
形式 。 一 种 称 为 抽象 语法 树 (abstract syntax tree) ， 或 简称 为 语法 树 
(syntax tree) 。 它 表示 了 源 程 序 的 层次 化 语法 结构 。 在 图 2-3 的 模型 
中 ， 语 法 分 析 器 生成 一 棵 语法 树 ， 它 又 被 进一步 翻译 为 三 地 址 代码 。 有 
些 编译 器 会 将 语法 分 机 和 中 间 代 码 生 成 合并 为 一 个 组 件 。 











do-while 

body A 
| # 

assign [] 人 

六 全 J 和 

二 a 2: tlt=a [Laij 
PF 3: if ti < v goto 1 
1 

a) b) 


图 2-4 “do i=i+1; while (a [i] <v) ; ”的 中 间 代 三 


图 2-4a 中 的 抽象 语法 树 的 根 表示 整个 do-while 循 环 。 根 的 左 子 树 表 
示 循 环 的 循环 体 ， 它 仅 包 含 赋值 语句 i=i+1; ， 根 的 右 子 树 表示 循环 控制 
条 件 a [ij <v。 在 2.8 节 中 将 介绍 一 个 构造 语法 树 的 方法 。 


图 2-4b 中 给 出 了 另 一 种 常见 的 中 间 表 示 形 式 ， 它 是 一 组 “三 地 址 ?” 指 
令 序 列 ， 网 2-2 中 显示 了 一 个 更 加 完整 的 示例 。 这 个 中 间 代 码 形式 的 名 
字源 于 它 的 指令 形式 : x=y op Zz， 其 中 op 是 一 个 二 目 运算 符 ，y 和 z 是 运 
算 分 量 的 地 址 ，x 是 运算 结果 的 存放 地 址 。 三 地 址 指令 最 多 只 执行 一 个 
运算 ， 通 常 是 计算 、 比 较 或 者 分 支 跳 转 运算 。 


在 附录 A 中 ， 我 们 将 把 本 章 中 的 技术 集成 在 一 起 ， 构 造 出 一 个 用 
Java 语 言 编 写 的 编译 需 前 端 。 这 个 前 器 将 语句 翻译 成 汇编 级 的 指令 序 


列 。 


22: ev 


在 这 一 节 ， 我 们 将 介绍 一 种 用 于 描述 程序 设计 语言 语法 的 表示 方法 
一 一 “上 下 文 无 天 文法 ”， 或 简称 “文法 "。 在 本 书 中 ， 文 法 将 锌 用 于 组 织 
编译 器 前 端 。 


文法 目 然 地 描述 了 大 多 数 程序 设计 语言 构造 的 层次 化 语法 结构 。 例 
如 ，Java 中 的 if-else 语 句 通 常 具 有 如 下 形式 





if (expression) statement else statement 


即 一 个 if-else 语 句 由 关键 字 寺 、 左 括 写 、 表 达 式 、 右 括号 、 一 个 语句 、 关 
键 字 else 和 男 一 个 语句 连接 而 成 。 如 果 我 们 用 变量 expr 来 表示 表达 式 ， 
用 变量 stmt 表 示 语 句 ， 那 么 这 个 构造 规则 可 以 表示 为 





stmt > if (expr) stmt else stmt 


其 中 的 箭头 〈-=> ) 可 以 读 作 “可 以 具有 如 下 形式 ”。 这 样 的 规则 称 为 产生 
式 〈production) 。 在 一 个 产生 式 中 ， 像 关键 字 证 和 括号 这 样 的 词法 元 素 
称 为 终结 符号 〈terminal) 。 像 expr 和 stmt 这 样 的 变量 表示 终结 符 写 的 序 
列 ， 它 们 称 为 非 终结 符号 (nonterminal) 。 


221 又 全 定义 


一 个 上 下 文 无 关 文 法 (context-free grammar) 由 四 个 元 素 组 成 : 


1) 一 个 终结 符号 集合 ， 它 们 有 时 也 称 为 “词法 单元 "。 终 结 符号 是 
该 文法 所 定义 的 语言 的 基本 符号 的 集合 。 

2) 一 个 非 终结 符号 集合 ， 它 们 有 时 也 称 为 "语法 变量 *"。 每 个 非 终 
结 符号 表示 一 个 终结 符号 串 的 集合 。 我 们 将 在 后 面 介绍 这 种 表示 方法 。 


3) 一 个 产生 式 集合 ， 其 中 每 个 产生 式 包括 一 个 称 为 产生 式 头 或 左 
部 的 非 终 结 符号 ， 一 个 第 头 ， 和 一 个 称 为 产生 式 体 或 右 部 的 由 终结 符号 





及 非 终 结 符 写 组 成 的 序列 。 产 生 式 主要 用 来 表示 某 个 构造 的 某 种 书写 形 
式 。 如 果 产 生 式 头 非 终 结 符号 代表 一 个 构造 ， 那 么 该 产生 式 体 束 代表 了 
该 构造 的 一 种 书写 方式 。 


4) 指定 一 个 非 终结 符号 为 开始 符号 。 





词法 单元 和 终结 符号 


在 编译 器 中 ， 词 法 分 析 嚣 读 入 源 程序 中 的 字符 序列 ， 将 它们 组 织 
为 具有 词法 含义 的 词素 ， 生 成 并 输出 代表 这 些 词 素 的 词法 单元 序列 。 
词法 单元 由 两 个 部 分 组 成 : 名 字 和 属性 值 。 词 法 单元 的 名 字 是 语法 分 
析 器 进行 语法 分 析 时 使 用 的 抽象 符 写 。 我 们 常常 把 这 些 词 法 单元 名 字 








称 为 终结 符号 ， 因 为 它们 在 描述 程序 设计 语言 的 文法 中 是 以 终结 符号 
的 形式 出 现 的 。 如 采 词 法 单元 具有 属性 值 ， 那 么 这 个 值 就 是 一 个 指 同 
符号 表 的 指针 ， 符 号 表 中 包含 了 该 词法 单元 的 附加 信息 。 这 些 附 加 信 
奶 不 是 文法 的 组 成 部 分 ， 因 此 在 我 们 讨论 语法 分 析 时 ， 通 常 将 词法 单 
元 和 终结 符号 当做 同义词 。 








在 描述 文法 的 时 候 ， 我 们 会 列 出 该 文法 的 产生 式 ， 并 且 首 先 列 出 开 
台 符号 对 应 的 产生 式 。 我 们 假设 数位 、 符 号 〈 如 <、<=) 和 黑体 字符 串 
(如 while) 都 是 终结 符 亏 。 和 斜体 字符 串 表 示 非 终结 符号 ， 所 有 非 斜 体 
的 名 字 或 符号 都 可 以 看 作 是 终结 符号 出 。 为 表示 方便 ， 以 同一 个 非 终结 
符号 为 头 部 的 多 个 产生 式 的 体 可 以 放 在 一 起 表示 ， 不 同体 之 间 用 符号 
( 读 作 “ 或 ”) 分 隔 。 

在 本 章 中 ， 有 多 个 例子 使 用 由 数位 和 +、- 符 号 组 成 的 表达 式 ， 

19-5+2、3-1 或 7。 由 于 两 个 数位 之 间 必 须 出 现 + 或 -， 我 们 把 这 样 的 
表达 式 称 为 "由 +、- 号 分 隔 的 数位 序列 ”。 下 面 的 文法 描述 了 这 种 表达 式 
的 语法 。 此 文法 的 产生 式 包 括 : 


list list + digit (2.1) 





list list - digit (2.2) 


list -digit «(2.3) 
digit .0111213141516171819 (2.4) 
以 非 终结 符号 list 为 头 部 的 三 个 产生 式 可 以 等 价 地 组 合 为 : 
list — list + digit | list - digit | digit 
根据 我 们 的 习惯 ， 访 文法 的 终结 符号 包括 如 下 符号 
+-0123456789 


该 文法 的 非 终结 符号 是 斜体 名 字 list 和 digit。 因 为 list 的 产生 式 首先 
被 列 出 ， 所 以 我 们 知道 list 是 此 文法 的 开始 符号 。 


如 果 菏 个 非 终 结 符号 是 某 个 产生 式 的 头 部 ， 我 们 就 说 该 产生 式 是 该 
非 终 结 符 号 的 产生 式 。 一 个 终结 符号 串 是 由 零 个 或 多 个 终结 符号 组 成 的 
序列 。 零 个 终结 符号 组 成 的 串 称 为 空 串 〈empty string) ， 记 为 E 铅 。 





7 放生 


根据 文法 推导 符号 串 时 ， 我 们 首先 从 开始 符号 出 发 ， 不 断 将 茶 个 非 
终结 符号 丛 换 为 该 非 终结 符号 的 茶 个 产生 陈 的 体 。 可 以 从 开始 符号 推导 
得 到 的 所 有 终结 符号 嘻 的 集合 称 为 该 文法 定义 的 语言 (language) 。 


由 例 2.1 中 的 文法 定义 的 语言 是 由 加 减 号 分 隔 的 数位 列表 的 集 
终结 符号 digit 的 10 个 产生 式 使 得 digit 可 以 表示 0、1、.…、9 中 的 任 
意 数位 。 根据 产生 式 (2.3) ， 单 个 数位 本 身 就 是 一 个 list。 产 生 式 
(2.1) 和 (2.2) 表达 了 如 下 规则 ; 任何 列表 后 跟 一 个 符号 + 或 -以 及 男 
一 个 数位 可 以 构成 一 个 新 的 列表 。 


产生 式 (2.1) 一 (2.4) 就 是 我 们 定义 所 期 望 的 语言 时 需要 的 全 部 
产生 式 。 例 如 ， 我 们 可 以 按照 如 下 方法 推导 出 9-5+2 是 一 个 list。 


1) 因为 9 是 digit， 根 据 产 生 式 (2.3)〉 可 知 9 是 list。 
2) 因为 5 是 digit， 且 9 是 list， 由 产生 式 (2.2〉 可知 9-5 也 是 list。 








3) 因为 2 是 digit，9-5 是 list， 由 产生 式 〈2.1) 可 知 ，9-5+2 也 是 
list。 


J 另 一 种 稍 有 不 同 的 列表 是 函数 调用 中 的 参数 列表 。 在 Java 中 ， 
参 矣 是 包含 在 括号 中 的 ， 例 如 max (x，y) 表示 使 用 参数 x 和 y 调 用 函 
数 nax。 这 种 列表 的 一 个 微妙 之 处 是 终结 符号 < (” 和 *) ”之 间 的 参数 列 
表 可 能 是 空 串 。 我 们 可 以 为 这 样 的 序列 构造 出 具有 如 下 产生 式 的 文法 : 


call 一 id ( optparams ) 
optparams 一 params | < 
params 下 params , param | param 


注意 ， 在 optparams (“可 选 参数 列表 ”) 的 产生 式 中 ， 第 二 个 可 选 规 
则 体 是 皇 ， 它 表示 空 的 符号 串 。 也 束 是 说 ，optparams 可 以 被 蔡 换 为 空 
串 ， 因 此 一 个 call 可 以 是 函数 名 加 上 两 个 终结 符号 “<(” 和 “) ”组 成 的 符 
号 串 。 请 注意 ，params 的 产生 式 和 例 2.1 中 jlist 的 产生 式 类 似 ， 只 是 将 算 
术 运 算 符 + 或 - 换 成 了 逗号 ， 并 将 digit 换 成 param。 函 数 参 数 实际 上 可 以 
是 任意 表达 式 ， 但 是 在 这 里 我 们 没有 给 出 param 的 产生 式 。 稍 后 我 们 束 
会 讨论 用 于 描述 不 同 的 语言 构造 〈 比 如 表达 式 、 语 句 等 ) 的 产生 式 。 


语法 分 析 (parsing)〉 的 任务 是 : 接受 一 个 终结 符号 串 作 为 输入 ， 找 
出 从 文法 的 开始 符号 推导 出 这 个 串 的 方法 。 如 果 不 能 从 文法 的 开始 符号 
推导 得 到 该 终结 符 写 串 ， 则 报告 该 终结 符号 串 中 包含 的 语法 错误 。 语 法 
分 析 是 所 有 编译 过 程 中 最 基本 的 问题 之 一 ， 主 要 的 语法 分 析 方 法 将 在 第 
4 章 中 讨论 。 在 本 半 中 ， 为 简 音 起见， 我们 首先 处 理 像 9-5+2 这 样 的 源 程 
序 ， 其 中 的 每 个 字符 均 为 一 个 终结 符号 。 一 般 情况 下 ， 一 个 源 程序 中 会 
包含 由 多 字符 组 成 的 词素 ， 这 些 词 系 由 词法 分 析 需 组 成 词法 单元 ， 而 词 
法 单元 的 第 一 个 分 量 就 是 被 语法 分 析 器 处 理 的 终结 符号 。 











2.2.3 ”语法 分 析 树 


语法 分 析 树 用 图 形 方式 展现 了 从 文法 的 开始 符号 推导 出 相应 语言 中 
的 符号 串 的 过 程 。 如 果 非 终结 符 写 A 有 一 个 产生 式 A ,XYZ， 那 么 在 语 
法 分 析 树 中 惑 可 能 有 一 个 标号 为 A 的 内 部 结 点 ， 该 结 点 有 三 个 子 结 扩 ， 





从 左 同 右 的 标号 分 别 为 X、Y、Z: 
A 
A 

正式 地 讲 ， 给 定 一 个 上 下 文 无 关 文 法 ， 该 文法 的 一 棵 语法 分 析 树 (parse 
tree) 是 具有 以 下 性 质 的 树 : 

1) 根 结 点 的 标号 为 文法 的 开始 符号 。 

2) 每 个 叶子 结 点 的 标号 为 一 个 终结 符号 或 E。 

3) 每 个 内 部 结 点 的 标号 为 一 个 非 终结 符号 。 

4) 如 果 非 终结 符号 A 是 某 个 内 部 结 点 的 标号 ， 并 且 它 的 子 结 点 的 
标号 从 左 至 右 分 别 为 又 1， X,， cg 入 那么 必然 存在 产生 式 
A-XIX...X， 其 中 XI，X，.….，X 既 可 以 是 终结 符号 ， 也 可 以 是 非 


终结 符号 。 作 为 一 个 特殊 情况 ， 如 果 A- E 是 一 个 产生 式 ， 那 么 一 个 标 
号 为 A 的 结 点 可 以 只 有 一 个 标号 为 E 的 子 结 点 。 














关于 树 型 结构 的 术语 


树 型 数据 结构 在 编译 系统 中 起 着 重要 的 作用 。 


一 棵 树 由 一 个 或 多 个 结 点 (node) 组 成 。 结 点 可 以 带 有 标号 
(label) ， 在 本 书 中 标号 通常 是 文法 符号 。 当 我 们 画 一 棵 树 时 ， 
我 们 常常 只 用 这 些 标号 来 代表 相应 的 结 点 。 

。 树 有 且 只 有 一 个 根 (root) 结 点 。 每 个 非 根 结 点 都 有 唯一 的 父 
Cparent) 结 点 ; 根 结 点 没有 父 结 点 。 当 我 们 画 树 的 时 候 ， 将 一 
个 结 点 的 父 结 点 画 在 它 的 上 方 ， 并 在 父 、 子 结 点 之 间 男 一 条 边 。 
因此 根 结 点 是 最 高 的 (顶层 的 ) 结 点 。 

。 如 果 结 点 N 是 结 点 M 的 父 结 点 ， 那 么 M 就 是 N 的 子 (child) 结 

点 。 一 个 结 点 的 各 个 子 结 点 彼此 称 为 兄弟 (sibling)〉 结 点 。 它 们 

之 间 是 有 序 的 ， 按 照 从 左 向 右 的 方式 排列 。 在 我 们 画 一 棵 树 时 也 








遵循 这 个 顺序 排列 给 定 结 点 的 子 结 点 。 

e。 没有 子 结 点 的 结 点 称 为 叶子 (eaf) 结 点 。 其 他 结 点 ， 即 有 一 个 
或 多 个 子 结 点 的 结 点 ， 称 为 内 部 结 点 (interior node) 。 

。 结 点 N 的 后 代 (descendant) 结 点 要 么 是 结 点 N 本 身 ， 要 么 是 N 的 
子 结 点 ， 要 么 是 N 的 子 结 点 的 子 结 点 ， 依 此 类 推 (可 以 为 任意 层 
次 ) 。 如 果 结 点 M 是 结 点 N 的 后 代 结 点 ， 那 么 结 点 N 是 结 点 M 的 
祖先 (ancestor) 结 点 。 





| 例 2.2 中 9-5+2 的 推导 可 以 用 图 2-5 中 的 树 来 演示 。 树 中 每 个 结 点 
J 剑 己 


都 是 一 个 文法 符号。 每 个 内 部 结 点 和 它 的 子 结 点 都 对 应 于 一 个 产 
生 式 。 其 中 ， 内 部 绽 氮 对 应 于 产生 式 的 头 ， 它 的 子 结 点 对 应 于 产生 式 的 
体 。 


在 图 2-5 中 ， 根 结 点 的 标号 为 ist， 即 例 2.1 中 文法 的 开始 符号 。 根 结 
点 的 子 结 点 的 标号 从 天 同 右 分 别 为 list、+ 和 digit。 请 注意 : 





list _vlist + digit 


list 
list digit 
list digit 
| 
digit 
| 
9 3 5 + 2 


图 2-5 “根据 例 2. 1 中 的 文法 得 到 的 9-5+2 的 语法 分 析 树 

是 例 2.1 中 文法 的 产生 式 。 根 络 点 的 左 子 结 点 和 根 结 点 类 似 ， 只 是 它 的 
中 间 子 结 点 的 标号 为 -而 不 是 +。 三 个 标号 为 digit 的 结 点 中 ， 每 个 结 点 都 
有 一 个 以 具体 数位 为 标号 的 子 结 点 。 


一 标语 法 分 析 树 的 叶子 结 点 从 左 同 右 构成 了 树 的 结果 (yield) ， 也 











就 是 从 这 棵 语法 分 析 树 的 根 结 点 上 的 非 终 结 符号 推导 得 到 (或 者 说 生 
成 ) 的 符号 串 。 在 图 2-5 中 的 结果 是 9-5+2。 为 了 方便 起 见 ， 我 们 将 所 有 
叶子 结 点 都 放 在 底层 。 以 后 我 们 不 一 定 会 把 叶子 结 点 按照 这 种 方法 排 
列 。 任 何 树 的 叶子 结 点 都 有 一 个 自然 的 从 左 到 右 的 顺序 。 这 个 顺序 基于 
如 下 思想 : 如 果 X 和 Y 是 同一 个 父 结 点 的 子 结 点 ， 并 且 X 在 Y 的 左边 ， 那 
么 X 的 所 有 后 代 结 点 都 在 Y 的 所 有 后 代 结 点 的 左边 。 


一 个 文法 的 语言 的 另 一 个 定义 是 指 任何 能 够 由 某 株 语 法 分 析 树 生成 
的 符号 串 的 集合 。 为 一 个 给 定 的 终 络 符号 串 构 建 一 棵 语法 分 析 树 的 过 程 
称 为 对 该 符号 串 进 行 语法 分 析 。 








2.2.4 二 义 性 


在 根据 一 个 文法 讨论 某 个 符号 串 的 结构 时 ， 我 们 必须 非常 小 心 。 一 
个 文法 可 能 有 多 棵 语法 分 析 树 能 够 生成 同一 个 给 定 的 终结 符号 串 。 这 样 
的 文法 称 为 具有 二 义 性 〈ambiguous) 。 要 证 明 一 个 文法 具有 二 义 性 ， 
我 们 只 需要 找到 一 个 终结 符号 串 ， 说 明 它 是 两 棵 以 上 语法 分 析 树 的 结 
果 。 因 为 具有 两 棵 以 上 语法 分 析 树 的 符号 串通 常 具有 多 个 含义 ， 所 以 我 
们 需要 为 编译 应 用 设计 出 没有 二 义 性 的 文法 ， 或 者 在 使 用 二 义 性 文法 时 
使 用 附加 的 规则 来 消除 二 义 性 。 


Ws 假如 我 们 使 用 一 个 非 终 结 符号 string， 并 且 不 像 例 2.1 中 那样 区 分 
Y 和 列表 ， 我 们 可 以 将 例 2.1 中 的 文法 改写 如 下 : 





string ~ String + String | String - string | 0 111121314151617| 
8 | 9 


将 符号 digit 和 list 合 并 为 非 终 结 符号 string 是 有 一 些 意义 的 ， 因 为 单 
个 digit 是 list 的 一 个 特例 。 


但 是 ， 图 2-6 说 明 ， 在 使 用 这 个 文法 时 ， 像 9-5+2 这 样 的 表达 式 会 有 
多 柠 语 法 分 析 树 。 图 中 9-5+2 的 两 棵 语法 分 析 树 对 应 于 两 种 带 括 号 的 表 
达 式 : (9-5) +2 和 9- (5+2) 。 第 二 种 方法 给 出 的 表达 式 值 是 意 想 不 到 的 
2， 而 不 是 通常 的 值 6。 例 2.1 的 语法 不 支持 这 样 的 解释 。 





string string 


string + string string - string 
pa | ,A | | | ~ 
string - string 2 9 string + string 
| | | 
9 5 5 2 


图 2-6 9-5+2 的 两 棵 语法 分 析 树 
2.2.5 ”运算 和 从 的 结合 性 


依照 惯例 ，9+5+2 等 价 于 (9+5) +2，9-5-2 等 价 于 (9-5) -2。 当 一 个 
运算 分 量 。【〔 比 如 上 式 中 的 5) 的 左右 两 侧 都 有 运算 符 时 ， 我 们 需要 一 
些 规 则 来 决定 哪个 运算 符 被 应 用 于 该 运算 分 量 。 我 们 说 运算 符 二 "是 左 
结合 〈associate) 的 ， 因 为 当 一 个 运算 分 量 左右 两 侧 都 有 “+” 号 时 ， 它 属 
于 其 左边 的 运算 符 符 。 在 大 多 数 程序 设计 语言 中 ， 加 、 减 、 乘 、 除 四 种 算 
术 运 算 符 都 是 左 结合 的 。 


| 某 些 常 用 运算 符 是 右 结 合 的 ， 比 如 指数 运算 。 作 为 男 一 个 例子 ，C 
语言 中 的 赋值 运算 符 ' ”及 其 后 裔 〈 即 +=、-= 等 译 者 注 ) 也 是 右 结 
也 就 是 说 ， 对 表达 式 a=b=c 的 处 理 和 对 表达 式 a= (b=c) 的 处 理 相 


带 有 右 结 合 运算 符 的 串 ， 比 如 a=b=c， 可 以 由 如 下 文法 产生 : 














right — letter = right | letter 
letter 一 alb|:…|z 


图 2-7 比 较 了 一 个 左 结 合 运 算 符 (比如 “-”) 的 语法 分 析 树 和 一 个 右 
结合 运算 答 〈 比 如 “=”) 的 语法 分 析 树 。 注 意 ，9-5-2 的 语法 分 析 树 同 左 
下 端 延 伸 ， 而 a=b=c 的 语法 分 析 树 则 辐 右 下 端 延伸 。 


list - digit letter = right 
本 由 本 | 
list digit 2 a letlter = right 
| | | 
digit 5 b letter 
| | 
9 C 


图 2-7 左 结 合 运算 符 文法 和 右 结合 运算 符 文法 的 分 析 树 


2.2.6 ”运算 符 的 优先 级 





考虑 表达 式 9+5*2。 该 表达 式 有 两 种 可 能 的 解释 ， 即 (9+5) *2 或 
9+ (5*2) 。+ 和 * 的 结合 性 规则 只 能 作用 于 同一 运算 符 的 多 次 出 现 ， 因 此 
它们 无 法 解决 这 个 二 义 性 。 为 此 ， 当 多 种 运算 符 出 现时 ， 我 们 需要 给 出 
一 些 规则 来 定义 运算 符 之 间 的 相对 优先 关系 。 


如 果 * 先 于 + 获得 运算 分 量 ， 我 们 就 说 * 比 + 具有 更 高 的 优先 级 。 在 通 
常 的 算术 中 ， 乘 法 和 除法 比 加 法 和 减法 具有 更 高 的 优先 级 。 因 此 在 表达 
式 9+5*2 和 9*5+2 中 ， 都 是 运算 分 量 5 首先 参与 * 运 算 ， 即 这 两 个 表达 式 分 
别 等 价 于 9+ (5*2) 和 (9*5) +2。 


算术 表达 式 的 文法 可 以 根据 表示 运算 符 结合 性 和 优先 级 的 表格 
米 构 建 。 我 们 衣 先 考虑 四 个 常用 的 算术 运算 符 和 一 个 优先 级 表 。 在 此 优 
先 级 表 中 ， 运 算 符 按照 优先 级 递增 的 顺序 排列 ， 同 一 行 上 的 运算 符 具 有 
相同 的 结合 性 和 优先 级 : 























左 结合 : ts 
左 结合 : */ 
我 们 创建 两 个 非 终 结 符号 expr 和 term， 分 别 对 应 于 这 两 个 优先 级 层 


次 ， 并 使 用 另 一 个 非 终结 符号 factor 来 生成 表达 式 中 的 基本 单元 。 当 
前 ， 表 达 式 的 基本 单元 是 数位 和 带 括 号 的 表达 陈 。 


factor ~ digit | (expr) 


现在 我 们 考虑 具有 最 高 优先 级 的 二 目 运算 符 * 和 /。 由 于 这 些 运 算 符 
是 左 结合 的 ， 因 此 其 产生 式 和 左 结合 列表 的 产生 式 类 似 : 








term 一 > term * factor 
| term / factor 


| factor 
类 似 地 ，expr 生 成 由 加 减 运算 符 分 隔 的 term 列 表 : 
expr 一 EXDF 十 term 
| expr 一 term 
| term 
因此 最 终 得 到 的 文法 是 : 
expr — expr + term | expr -term | term 


term — term * factor | term / factor | factor 


factor ~ digit | (expr) 





例 2.6 中 表达 式 文法 的 推广 


我 们 可 以 将 因子 〈factor) 理解 成 不 能 被 任何 运算 符 分 开 的 表达 
式 。 “不 能 分 开 ” 的 意思 是 说 当 我 们 在 任意 因子 的 任意 一 边 放 置 一 个 运 
算 符 ， 都 不 会 导致 这 个 因子 的 任何 部 分 分 离 出 来 ， 成 为 这 个 运算 符 的 
运算 分 量 。 当 然 ， 因 子 本 身 作 为 一 个 整体 可 以 成 为 该 运算 符 的 一 个 运 
算 分 量 。 如 果 这 个 因子 是 一 个 由 括号 括 起 来 的 表达 式 ， 那 么 括号 将 起 
So 
` 能 被 分 开 。 











一 个 〈 不 是 因 于 的 ) 项 (term) 是 一 个 可 能 被 高 优先 级 的 运算 符 
* 和 /分 开 ， 但 不 能 被 低 优先 级 运算 符 分 开 的 表达 式 。 一 个 不 是 因子 
也 不 是 项 的 ) 表达 式 可 能 被 任何 一 个 运算 符 分 开 。 


我 们 可 以 把 这 种 思想 推广 到 具有 任意 n 层 优先 级 的 情况 。 我 们 需 
要 n+1 个 非 终 结 符号 。 首 先 ， 例 2.6 中 描述 的 factor 不 可 被 分 开 。 通 
常 ， 这 个 非 终结 符 号 的 产生 式 体 只 能 是 单个 运算 分 量 或 括号 括 起 来 的 

















表达 陈 。 然 后 ， 对 于 每 个 优先 级 都 有 一 个 非 终 结 符 ， 表 示 能 被 该 优先 
级 或 更 高 优先 级 的 运算 符 分 开 的 表达 式 。 通 常 ， 这 个 非 终 结 符 的 产生 
式 有 一 些 产 生 式 体 表示 了 该 优先 级 的 运算 符 的 应 用 ;， 男 有 一 个 产生 式 
体 只 包含 了 代表 更 局 一 层 优先 级 的 非 终 结 符 写 。 





使 用 这 个 文法 时 ， 一 个 表达 式 就 是 一 个 由 :+ 或 -分 隔 开 的 项 〈term ) 
的 列表 ， 而 项 是 由 * 或 /分 隔 的 因子 (factor〉 的 列表 。 请 注意 ， 任 何 由 括 








号 括 起 来 的 表达 陈 都 是 一 个 因 了 于 。 因 此 ， 我 们 可 以 使 用 括号 来 构造 出 具 














有 任意 舱 套 深度 的 表达 式 〈 以 及 具有 任意 深度 的 语法 分 析 树 ) 。 


由 于 大 多 数 语句 是 由 一 个 关键 字 或 一 个 特殊 字符 开始 的 ， 因 此 
子 能 够 帮助 我 们 识别 语句 。 这 一 规则 的 例外 情况 包括 赋值 语句 和 过 
程 调用 语句 。 由 图 2-8 中 的 (二 义 性 ) 文法 定义 的 语句 都 符合 Java 的 语 


id = ezpression ; 

if ( expression ) stmt 

if ( expression ) stmt else stmt 
While ( expression ) stmt 


do stmt while ( expression ) ; 
{ stmts } 


stmts stmts stmt 
€ 





图 2-8 ” Java 语句 的 子 集 的 文法 











在 stmt 的 第 一 个 产生 式 中 ， 终 结 符 号 这 表示 任意 标识 符 。 非 终结 符 
号 expression 的 产生 式 还 没有 给 出 。 第 一 个 产生 式 描述 的 赋值 语句 符合 
Java 的 语法 ， 虽 然 Java 将 = 号 看 作 是 可 出 现在 表达 式 内 部 的 赋值 运算 符 。 
比如 ， 在 Java 中 人 允许 出 现 a=b=c， 而 这 个 文法 不 允许 出 现 这 样 的 形式 。 


非 终结 符号 stmts 产 生 一 个 可 能 为 空 的 语句 列表 。stmts 的 第 二 个 产 
生 式 生成 一 个 空 列表 E 。 第 一 个 产生 式 生成 的 是 一 个 可 能 为 空 的 列表 再 
跟 上 一 个 语句 。 


分 号 的 放置 方式 很 微妙 。 它 们 出 现在 所 有 不 以 stmt 结 尾 的 产生 式 的 
末尾 。 这 种 方法 可 以 避免 在 if 或 while 这 样 的 语句 后 面 出 现 多余 的 分 号 ， 
因为 站 和 while 语 句 的 最 后 是 一 个 嵌 套 的 子 语句 。 当 嵌 套 子 语句 是 一 个 赋 
值 语句 或 do-while 语 句 时 ， 分 号 将 作为 这 个 子 语句 的 一 部 分 被 生成 。 











2.2.7 ”2.2 节 的 练习 


练习 2.2.1: 考虑 下 面 的 上 下 文 无 关 文 法 : 
S»>SS+|SS*|a 
1) 试 说 明 如 何 使 用 该 文法 生成 串 aa+a 。 
2) 试 为 这 个 串 构 造 一 棵 语法 分 析 树 。 
3) 该 文法 生成 的 语言 是 什么 ? 证 明 你 的 答案 。 
练习 2.2.2: 下 面 的 各 个 文法 生成 什么 语言 ? 证 明 你 的 每 一 个 答案 。 
1)S~0S1l01 
2)S~+SSl-SSla 
= 
4)S ,aSbslbSaSs|e 


5)S_ alS+S|SS|S*| (S) 





练习 2.2.3: 练习 2.2.2 中 哪些 文法 具有 二 义 性 ? 


练习 2.2.4: 为 下 面 的 各 个 语言 构建 无 二 义 性 的 上 下 文 无 关 文法 。 证 
明 你 的 文法 都 是 正确 的 。 


1) 用 后 绥 方 式 表 示 的 算术 表达 式 。 

2) 由 逗号 分 隔 开 的 左 结合 的 标识 符 列 表 。 

3) 由 逗号 分 隔 开 的 右 结合 的 标识 符 列表 。 
A ps A a te 
工 No 

! 5) 在 4) 的 运算 符 中 增加 单 目 + 和 单 目 -构成 的 算术 表达 式 。 

练习 2.2.5: 


1) 证 明 : 用 下 面 文法 生成 的 所 有 二 进 制 串 的 值 都 能 被 3 整除 。〈 提 
示 : 对 语法 分 析 树 的 结 点 数目 使 用 数学 归纳 法 。) 





num ~” 11|1001 |num 0 |num num 
2) 上 面 的 文法 是 人 否 能 够 生成 所 有 能 被 3 整除 的 二 进 制 串 ? 
练习 2.2.6: 为 罗马 数字 构建 一 个 上 下 文 无 关 文 法 。 


2.3 ”语法 制导 翻译 


语法 制导 翻译 是 通过 向 一 个 文法 的 产生 式 附加 一 些 规 则 或 程序 厂 段 
而 得 到 的 。 比 如 ， 考 虑 由 如 下 产生 式 生 成 的 表达 式 expr: 


expr — expri + term 


这 里 ，expr 是 两 个 子 表达 式 exprj 和 term 的 和 。 (expri 中 的 下 标 仅 仅 
被 用 于 将 产生 式 体 中 expr 的 实例 和 产生 式 头 区 别 开 来 ) 。 我 们 可 以 利用 
expr 的 结构 ， 用 如 下 的 伪 代 码 来 翻译 expr: 


翻 详 expri; 
翻译 term 
处 理 +; 


我 们 将 在 2.8 节 中 使 用 这 段 伪 代 码 的 一 个 变 体 ， 为 expr 构 造 一 棵 语法 
分 析 树 : 我 们 首先 建立 expri 和 term 的 语法 分 析 树 ， 然 后 处 理 + 运 算 符 并 
构造 得 到 一 个 和 此 运算 符 对 应 的 结 点 。 为 方便 起 见 ， 本 节 中 的 例子 是 从 
中 级 表达 式 到 后 级 表达 式 的 翻译 。 


本 市 介绍 两 个 与 语法 制导 翻译 相关 的 概念: 


。 属性 (attribute〉: 属性 表示 与 某 个 程序 构造 相关 的 任意 的 量 。 属 
性 可 以 是 多 种 多 样 的 ， 比 如 表达 式 的 数据 类 型 、 生 成 的 代码 中 的 指 
令 数 目 或 为 某 个 构造 生成 的 代码 中 第 一 条 指令 的 位 置 等 等 都 是 属性 
的 例子 。 因 为 我 们 用 文法 符号 〈 终 结 符 号 或 非 终结 符号 ) 来 表示 程 
序 构造 ， 所 以 我 们 将 属性 的 概念 从 程序 构造 扩展 到 表示 这 些 构造 的 
文 :二 条 写 二 ， 

(语法 制导 的 ) 翻译 方案 (translation scheme) : 翻译 方案 是 一 种 
将 程序 片段 附加 到 一 个 文法 的 各 个 产生 式 上 的 表示 法 。 当 在 语法 分 
析 过 程 中 使 用 一 个 产生 式 时 ， 相 应 的 程序 片段 就 会 执行 。 这 些 程序 
片段 的 执行 效果 按照 语法 分 析 过 程 的 顺序 组 合 起 来 ， 得 到 的 结果 就 
是 这 次 分 析 / 缘 合 过 程 处 理 源 程序 得 到 的 翻译 结果 。 











语法 制导 的 翻译 方 采 将 在 本 章 中 多 次 使 用 ， 它 将 用 于 把 中 级 表达 式 
翻译 成 后 级 表达 式 ， 还 会 用 于 表达 式 求 值 ， 并 用 来 构建 一 些 程序 构造 的 
抽象 语法 树 。 第 5 章 将 更 详细 地 讨论 语法 制导 表示 法 。 


2.3.1 后 级 表示 

本 节 中 的 例子 处 理 的 是 中 缀 表达 式 到 其 后 级 表示 的 翻译 。 一 个 表达 
式 E 的 后 级 表示 (postfix notation〉 可 以 按照 下 面 的 方式 进行 归纳 定义 : 

1) 如 果 E 是 一 个 变量 或 常量 ， 则 E 的 后 级 表示 是 EE 本 里 。 

2) 如 果 E 是 一 个 形 如 Ei op E, 的 表达 式 ， 其 中 op 是 一 个 二 目 运算 
符 ， 那 么 EE 的 后 级 表示 是 EE',0p， 这 里 E11 和 E', 分 别 是 E1 和 E, 的 后 级 表 


作 \。 








3) 如 果 E 是 一 个 形 如 〈Ei) 的 被 括号 括 起 来 的 表达 式 ， 则 下 的 后 绥 
表示 就 是 E1 的 后 级 表示 。 


(9-5) +2 的 后 缀 表示 是 95-2+。 也 就 是 说 ， 由 规则 1 可 知 ，9、5 
12 的 翻译 结果 就 是 这 些 常 量 本 身 。 然 后 ， 根 据 规 则 2，9-5 的 翻译 结果 
是 95- 。 由 规则 3 可 知 ， (9-5) 的 翻译 结果 与 此 相同 。 翻 译 完 带 括 号 的 
子 表 达 式 后 ， 我 们 可 以 将 规则 2 应 用 于 整个 表达 式 ， 〈9-5) 束 是 El，2 
为 E,， 由 此 得 到 结果 95-2+。 


再 举 另 外 一 个 例子 ，9- (5+2) 的 后 级 表 达 式 是 952+- 。 也 就 是 
说 ，5+2 首 先 被 翻译 成 52+， 人 然后 这 个 表达 式 又 成 为 减 号 的 第 二 个 运算 分 


里 。 





运算 符 的 位 置 和 它 的 运算 分 量 个 数 (arity) 使 得 后 缀 表达 式 只 有 一 
种 解码 方式 ， 所 以 在 后 缀 表示 中 不 需要 括号。 处 理 后 缀 表达 式 的 “ 技 
巧 ” 就 是 从 左边 开始 不 断 扫描 后 绥 串 ， 直 到 发 现 一 个 运算 符 为 止 。 然 后 
辣 左 找 出 适当 数目 的 运算 分 量 ， 并 将 这 个 运算 符 和 它 的 运算 分 量 组 合 在 
一 起 。 计 算出 这 个 运算 符 作 用 于 这 些 运算 分 量 上 后 得 到 的 结果 ， 并 用 这 
En 
一 个 运算 符 。 




















考虑 后 缀 表 达 式 952+-3* 。 从 左边 开始 扫描 ， 我 们 首先 遇 到 加 
叶 。 问 加 号 的 左边 看 ， 我 们 找到 运算 分 量 5 和 7。 用 它们 的 和 7 替换 原来 
的 52+， 这 样 我 们 得 到 串 97-3* 。 现 在 最 左边 的 运算 符 是 减 号 ， 它 的 运算 
分 量 是 9 和 7。 将 这 些 符号 蔡 换 为 它们 的 差 ， 得 到 23*。 最 后 ， 将 乘 号 应 
用 在 2 和 3 上 ， 得 到 结果 6。 











2.3.2 ”综合 属性 


将 量 和 程序 构造 关联 起 来 “比如 把 数值 及 类 型 和 表达 陈 相 关联 ) 的 
想法 可 以 基于 文法 来 表示 。 我 们 将 属性 和 文法 的 非 终结 符号 及 终结 符号 
相关 联 。 然 后 ， 我 们 给 文法 的 各 个 产生 式 附加 上 语义 规则 。 对 于 语法 分 
析 树 中 的 一 个 结 点 ， 如 果 它 和 它 的 子 结 点 之 间 的 关系 符合 某 个 产生 式 ， 
那么 该 产生 式 对 应 的 规则 就 描述 了 如 何 计算 这 个 结 点 上 的 属性 。 


语法 制导 定义 (syntax-directed definition ) 把 人 每 个 文法 符号 和 一 
个 属性 集合 相关 联 ， 并 且 把 @ 每 个 产生 式 和 一 组 语义 规则 〈semantic 
rule) 相关 联 ， 这 些 规则 用 于 计算 与 该 产生 式 中 符号 相关 联 的 属性 值 。 


属性 可 以 按照 如 下 方式 求 值 。 对 于 一 个 给 定 的 输入 串 x， 构 建 x 的 一 
个 语法 分 析 树 。 然 后 按照 下 面 的 方法 应 用 语义 规则 来 计算 语法 分 析 树 中 
各 个 结 点 的 属性 。 


假设 语法 分 析 树 的 一 个 结 点 N 的 标号 为 文法 符号 X。 我 们 用 X.a 表 示 
该 结 点 上 XX 的 属性 a 的 值 。 如 果 一 棵 语法 分 析 树 的 各 个 结 点 上 标记 了 相应 
的 属性 值 ， 那 么 这 标语 法 分 析 树 就 称 为 注释 (Cannotated) 语法 分 析 树 
(简称 注释 分 析 树 ) 。 比 如 ， 图 2-9 显 示 了 9-5+2 的 一 棵 注释 分 析 树 ， 其 
中 属性 与 非 终 结 符 号 expr 和 term 关 联 。 该 属性 在 根 结 点 处 的 值 为 95- 
0 
尘 。 


如 果 某 个 属性 在 语法 分 析 树 结 点 N 上 的 值 是 由 N 的 子 结 点 以 及 N 本 身 
的 属性 值 确定 的 ， 那 么 这 个 属性 残 称 为 综合 属性 (synthesized 
attribute ) 。 纤 合 属性 具有 一 个 很 好 的 性 质 : 只 需要 对 语法 分 析 树 进行 
一 次 目 底 和 同上 的 遍历 ， 就 可 以 计算 出 属性 的 值 。 在 5.1.1 节 中 ， 我 们 将 讨 
论 另 外 一 种 重要 的 属性 : “继承 ”属性 。 非 正式 地 讲 ， 继 承 属 性 在 某 个 语 
法 分 析 树 结 点 上 的 值 是 由 语法 分 析 树 中 该 结 点 本 身 、 父 结 点 以 及 兄弟 结 























点 上 的 属性 值 决 定 的 。 


了 罗 2 中 的 注 答 分 析 树 是 根据 图 2-10 中 的 语法 制导 定义 得 到 
]。 该 语法 制导 定义 用 于 把 一 个 表达 式 翻 译 成 为 该 表达 式 的 后 缀 形式 ， 
待 翻 译 的 表达 式 是 一 个 由 加 号 和 减 号 分 隔 的 数位 序列 。 图 中 每 个 非 终 结 
符号 有 一 个 值 为 字符 串 的 属性 t， 它 表示 由 该 非 终 结 符号 生成 的 表达 式 
的 后 组 表示 形式 。 语 义 规则 中 的 符号 | 表示 字符 串 的 连接 运算 符 。 








erpr.t = 95-2+ 
erpr.t = ai | ~ =2 
ezpr.t Ei | Di- = | 
a =9 


erpr 一 expr + term | expr.t = expri.t || term.t + 


erpr — eZD71 - term | expr.t erpri.t || term.t || 一 
erpr 一 term erpr.t term.t 
term— 0 term.t 


te7770 一 1 term.t 


term— 9 term.t 





图 2-10 ”从 中 级 表示 到 后 级 表示 的 翻译 的 语法 制导 定义 


一 个 数位 的 后 缀 形式 是 该 数位 本 身 。 例 如 ， 与 产生 式 term - 9 相关 
联 的 语义 规则 定义 如 下 : 当 该 产生 式 伞 应 用 在 语法 分 析 树 的 条 个 结 点 上 





时 ，term.t 的 值 就 是 9 本 身 。 其 他 数位 也 按照 类 似 的 方法 进行 翻译 。 再 
如 ， 当 产生 式 expr term 被 应 用 时 ，term.t 的 值 成 为 expr.t 的 值 。 


产生 式 expr -expri+term 推 导出 一 个 带 有 加 号 的 表达 式 关 。 加 法 运算 
符 的 左 运算 分 量 由 exprj 给 出 ， 右 运算 分 量 由 term 给 出 。 与 这 个 产生 式 关 
联 的 语义 规则 





expr.t = expri.t | term.th'+' 


定义 了 计算 属性 expr.t 的 值 的 方式 ， 它 将 分 别 代 表 左 右 运 算 分 量 后 级 表 
示 形 式 的 expri.t 和 term.t 连 接 起 来 ， 再 在 后 面 加 上 加 号 ， 就 得 到 了 属性 
expr.t 的 值 。 这 个 规则 是 后 级 表达 式 定 义 的 一 个 公式 化 表示 。 


区 分 一 个 非 终 结 符 写 的 不 同 使 用 的 规则 


在 规则 中 ， 我 们 经 前 要 区 分 同一 个 非 终 络 符 号 在 一 个 产生 式 的 头 
和 /或 体 中 的 多 次 使 用 ， 在 例 2.10 中 就 有 这 样 的 情况 。 原 因 是 在 语法 分 
析 树 中 ， 标 号 为 同一 个 非 终 结 符号 的 不 同 结 点 通常 在 翻译 中 具有 不 同 
的 属性 值 。 我 们 将 采用 下 面 的 规则 : 出 现在 产生 式 头 中 的 非 终 结 符 号 

















没有 下 标 ， 而 在 产生 式 体 中 的 非 终结 符号 带 有 不 同 的 下 标 。 同 一 个 非 
终结 符号 的 所 有 出 现 都 按照 这 种 方式 区 分 ， 并 且 下 标 不 是 名 字 的 组 成 
部 分 。 然 而 ， 读 者 应 该 注意 使 用 了 这 种 下 标 约定 的 特定 翻译 规则 和 

A-XIX,...X 这样 表示 一 般 形 式 的 产生 式 的 区 别 。 在 后 者 中 ， 带 下 标 
De 
司 实例 。 








2.3.3” 人 简单 语法 市 导 定 义 








例 2.10 中 的 语法 制导 定义 具有 下 面 的 重要 性 质 : 要 得 到 代表 产生 式 
头 部 的 非 终 结 符 写 的 翻译 结果 的 字符 串 ， 只 需要 将 产生 式 体 中 各 非 终结 
符号 的 翻译 结果 按照 它们 在 非 终 结 符 号 中 的 出 现 顺序 连接 起 来 ， 并 在 其 
中 穿插 一 些 附加 的 串 即 可 。 具 有 这 个 性 质 的 语法 制导 定义 称 为 简单 





Csimple) 语法 制导 定义 。 
考虑 图 2-10 中 的 第 一 个 产生 式 和 语义 规则 ; 


产生 式 语义 规则 


expr —> exXDT1 + term expr.t = expri.t lterm.t | '+ 


这 里 ， 翻 译 结果 expr.t 是 expr; 和 term 的 翻译 结果 的 连接 ， 再 跟 一 个 
加 号 。 请 注意 ，exprj 和 term 在 产生 式 体 中 和 语义 规则 中 的 出 现 顺序 是 相 
同 的 。 在 它们 的 翻译 结果 之 前 和 之 间 没 有 其 他 符号 。 在 这 个 例子 中 ， 唯 
一 的 附加 符号 出 现在 结尾 处 。 

当 讨 论 翻 译 方案 的 时 候 ， 我 们 将 看 到 ， 一 个 简单 语法 制导 定义 的 实 
现 很 简单 ， 只 需要 按照 它们 在 定义 中 出 现 的 顺序 打印 出 附加 的 串 即 可 。 


(2.3) 





2.3.4 树 的 遍历 


树 的 壳 历 将 用 于 描述 属性 的 求 值 过 程 ， 以 及 摘 述 一 个 翻译 方案 中 的 
各 个 代码 片段 的 执行 过 程 。 一 个 树 的 遍历 〈traversal) 从 根 结 点 开始 ， 
并 按照 某 个 顺序 访问 树 的 各 个 结 点 。 


一 次 深度 优先 《〈depth-first) 这 历 从 根 结 点 开始 ， 递 归 地 按照 任意 顺 
序 访问 各 个 结 点 的 子 结 点 ， 并 不 一 定 要 按照 从 左 向 右 的 顺序 遍历 。 之 所 
以 称 之 为 深度 优先 ， 是 因为 这 种 过 历 总 是 尽 可 能 地 访问 一 个 结 点 的 尚未 
被 访问 的 子 结 皮 ， 因 此 它 总 是 尽 可 能 快 地 访问 离 根 结 点 最 远 的 结 点 〈 即 
最 深 的 结 点 )。 


图 2-11 中 的 过 程 visit (N) 右 是 一 个 深度 优先 裔 历 ， 它 按照 从 左 问 
右 的 顺序 访问 一 个 结 点 的 子 结 点 ， 如 图 2-12 所 示 。 在 这 个 遍历 中 ， 完 成 
某 个 结 点 的 遍历 之 前 (也 就 是 在 该 结 点 的 各 个 子 结 点 的 翻译 结果 都 计算 
完毕 之 后 ) ， 我 们 加 入 了 计算 每 个 结 点 的 翻译 结果 的 动作 。 一 般 来 说 ， 
0 当然 也 可 以 选择 什么 
不 做 。 














procedure wisit(node N){ 


for (从 左 到 右 遍 历 X 的 每 个 子 结 点 C ) { 
visit (CO); 


】 
按照 结 点 N 上 的 语义 规则 求 值 ， 





图 2-11 一 棵 树 的 深度 优先 遍历 





图 2-12 一 棵 树 的 深度 优先 遍历 的 例子 


语法 制导 定义 没有 规定 一 棵 语法 分 析 树 中 各 个 属性 值 的 求 值 顺序 。 
只 要 一 个 顺序 能 够 保证 计算 属性 a 的 值 时 ，a 所 依赖 的 其 他 属性 都 已 经 计 
算 完 毕 ， 这 个 顺序 就 是 可 以 接受 的 。 综 合 属性 可 以 在 自 底 向 上 人 裔 历 的 时 
候 计 算 。 自 顶 加 上衣 历 指 在 计算 完成 条 个 结 点 的 所 有 子 结 点 的 属性 值 之 
后 才 计 算 该 结 点 的 属性 值 的 过 程 。 一 般 来 说 ， 当 既 有 综合 属性 又 有 继承 
属性 时 ， 关 于 求 值 顺 序 的 问题 残 变 得 相当 复杂 ， 参 见 5.2 市 。 








2.3.5 翻译 方案 


图 2-10 中 的 语法 制导 定义 将 字符 串 作为 属性 值 附加 在 语法 分 析 树 的 
结 点 上 ， 从 而 得 到 翻译 结果 。 我 们 现在 来 考虑 男 外 一 种 不 需要 操作 字符 
串 的 方法 。 它 通过 运行 程序 片段 ， 逐 步 生 成 相同 的 翻译 结果 。 


| 


前 序 遍 历 和 后 序 遍 历 


前 序 人 吉 历 和 后 序 吉 历 是 深度 优先 志 历 的 两 种 重要 的 特例 。 在 这 两 
种 过 历 中 ， 我 们 都 是 从 左 到 右 递归 地 访问 每 个 结 点 的 子 结 点 。 


我 们 经 各 遍历 一 棵 树 ， 并 在 各 个 结 点 上 执行 某 些 特定 的 动作 。 如 
果 动 作 在 我 们 第 一 次 访问 一 个 结 点 时 被 执行 ， 那 么 我 们 将 这 种 过 历 称 
为 前 序 遍 历 (preorder traversal) 。 类 似 地 ， 如 果 动 作 在 我 们 最 后 离开 
一 个 结 点 前 被 执行 ， 则 称 这 种 过 历 为 后 序 饥 历 (postorder 
traversal) 。 图 2-11 中 的 过 程 visit (N) 就 是 一 个 后 序 遍 历 的 例子 。 


前 序 胃 历 和 后 序 过 有 历 根据 一 个 结 点 的 动作 执行 时 间 来 定义 这 些 结 
尽 的 相应 次 序 。 一 标 以 结 点 N 为 根 的 〈( 子 ) 树 的 前 序 排序 由 NN， 跟 上 
它 的 从 左 到 右 的 每 棵 子 树 (如果 存在 ) 的 前 序 排序 组 成 。 而 一 村 以 结 
点 N 为 根 的 〈 子 ) 树 的 后 序 排序 则 由 N 的 从 左 到 右 的 每 株 子 树 的 后 序 
排序 ， 再 跟 上 N 自 身 组 成 。 

















语法 制导 翻译 方案 是 一 种 在 文法 产生 式 中 附加 一 些 程序 睫 段 来 描述 
翻译 结果 的 表示 方法 。 语 法 制导 翻译 方案 和 语法 制导 定义 相似 ， 只 是 显 
式 指定 了 语义 规则 的 计算 顺序 。 


被 舱 入 到 产生 式 体 中 的 程序 片段 称 为 语义 动作 (semantic 
action) 。 一 个 语义 动作 用 花 括 号 括 起 来 ， 并 写 入 产生 式 的 体 中 ， 它 的 
执行 位 置 也 由 此 指定 ， 如 下 面 的 规则 所 示 : 








rest — + term {print (+') } rest 


当 我 们 考虑 表达 式 的 另 一 种 形式 的 文法 时 ， 我 们 就 会 看 到 这 样 的 规 
则 ， 其 中 非 终结 符号 rest 代 表 “ 一 个 表达 式 中 除 第 一 个 项 之 外 的 一 切 ”。 
这 种 形式 的 文法 将 在 2.4.5 节 中 讨论 。 此 外 ，rest1 中 的 下 标 将 非 终 结 符号 
rest 在 产生 式 体 中 的 实例 与 产生 式 头 部 的 rest 实 例 区 分 开 来 。 


当 我 们 男 出 一 个 翻译 方案 的 语法 分 析 树 时 ， 我 们 为 每 个 语义 动作 构 
造 一 个 额外 的 子 结 点 ， 并 使 用 虚线 将 它 和 该 产生 陈 头 部 对 应 的 结 点 相 
连 。 例 如 ， 表 示 上 述 产 生 式 和 语义 动作 的 部 分 语法 分 析 树 如 图 2-13 所 
示 。 对 应 于 语义 动作 的 结 点 没有 子 结 点 ， 因 此 在 第 一 次 访问 该 结 点 时 就 





会 执行 这 个 动作 。 


rest 


+ term {print( + )} resti 


图 2-13 ”为 一 个 语义 动作 创建 一 个 额外 的 叶子 结 点 


2 图 2-14 的 语法 分 析 树 在 额外 的 叶子 结 点 中 含有 打印 语句 。 这 些 
叶子 质点 通过 虚线 与 语法 分 析 树 的 内 部 结 点 相连 接 。 它 的 翻译 方案 如 图 
2-15 所 示 。 该 翻译 方案 的 基础 文法 生成 了 由 符号 + 和 -分 隔 的 数位 序列 组 
成 的 表达 式 。 假 设 我 们 对 整 棵 树 进行 从 左 到 右 的 深度 优先 遍历 ， 并 在 我 
们 访问 它 的 叶子 结 点 时 执行 每 个 打印 语句 ， 那 么 产生 式 体 中 内 婴 的 语义 
动作 将 把 这 样 的 表达 式 翻译 为 相应 的 后 级 表示 形式 。 


expr 
ae 
ezpr + term {print(+')} 
We | 
下 一 {print(‘-’)} 2 {print(’'2’)} 
term 5 {print('5')} 


9 {print('9')} 
图 2-14 ”把 9-5+2 翻 译 成 95-2+ 的 语义 动作 


图 2-14 的 根 结 扣 代表 图 2-15 中 的 第 一 个 产生 式 。 这 个 根 结 点 的 最 左 
边 的 子 树 代 表 左 边 的 运算 分 量 ， 它 的 标号 和 根 结 点 一 样 都 是 expr。 在 一 
次 后 序 吉 历 中 ， 我 们 首先 执行 该 子 树 中 的 所 有 语义 动作 。 然 后 我 们 访问 
没有 语义 动作 的 叶子 结 点 +。 接 下 来 ， 我 们 执行 代表 右 运 算 分 量 term 的 
子 树 中 的 所 有 语义 动作 。 最 后 执行 额外 结 点 上 的 语义 动作 {print (+ 
") }s 





EZD7 eZD71 + term {print(’+’)} 
EZD7 expr] - term {print(’-’)} 
expr term, 

term {print(’0’)} 


term {print(’1’)} 





term {print('9’)} 
图 2-15 把 表达 式 翻 译 成 后 级 形式 的 语义 动作 


由 于 term 的 产生 式 的 右 部 只 有 一 个 数位 ， 该 产生 式 的 语义 动作 把 这 
个 数位 打印 出 来 。 产 生 式 expr term 不 需要 产生 输出 ， 只 有 前 面 两 个 产 
生 式 的 语义 动作 中 的 运算 符 才 会 打印 出 来 。 图 2-14 中 的 语义 动作 在 对 语 
法 分 析 树 的 后 序 过 历 中 执行 时 会 打印 出 95-2+。 


注意 ， 尽 管 图 2-10 和 图 2-15 中 的 翻译 方案 产生 相同 的 翻译 结 素 ， 但 
它们 构造 结果 的 过 程 是 不 同 的 。 图 2-10 是 把 字符 串 作为 属性 附加 到 语法 
分 析 树 中 的 结 点 上 ， 而 图 2-15 通 过 语义 动作 把 翻译 结果 以 增 量 方 式 打 印 
出 来 


如 图 2-14 所 示 的 语法 分 析 树 中 的 语义 动作 将 中 组 表达 式 9-5+2 翻 译 
成 95-2+， 它 恰好 将 9-5+2 中 的 每 个 字符 各 打印 一 次 。 它 不 需要 任何 附加 
空间 来 存放 子 表达 式 的 翻译 结果 。 当 按照 这 种 方式 递增 地 创建 输出 时 ， 
字符 的 打印 顺序 非常 重要 。 


实现 一 个 翻译 方案 时 ， 必 须 保 证 各 个 语义 动作 按照 它们 在 语法 分 析 
树 的 后 序 损 历 中 的 顺序 执行 。 这 个 实现 不 一 定 要 真 的 构造 出 一 棵 语法 分 
析 树 (通常 也 不 会 这 么 做 ) ， 只 要 能 够 确保 语义 动作 的 执行 过 程 等 同 于 
我 们 真 的 构建 了 语法 分 析 树 并 在 后 序 遇 历 中 执行 这 些 动作 时 的 情形 。 

















2.3.6 2.3 节 的 练习 


练习 2.3.1: 构建 一 个 语法 制导 翻译 方案 ， 该 方案 把 算术 表达 式 从 中 
级 表示 方式 翻译 成 运算 符 在 运算 分 量 之 前 的 前 级 表示 方式 。 例 如 ，-xy 
是 表达 式 x-y 的 前 级 表示 法 。 给 出 输入 9-5+2 和 9-5*2 的 注释 分 析 树 。 





练习 2.3.2: 构建 一 个 语法 制导 翻译 方案 ， 该 方案 将 算术 表达 陈 从 后 
人 
对 。 

练习 2.3.3: 构建 一 个 将 整数 翻译 成 罗马 数字 的 语法 制导 翻译 方案 。 

练习 2.3.4: 构建 一 个 将 罗马 数字 翻译 成 整数 的 语法 制导 翻译 方案 。 


练习 2.3.5: 构建 一 个 将 后 级 算术 表达 式 翻 译 成 等 价 的 前 级 算术 表达 
式 的 语法 制导 翻译 方案 。 





2 语法 分 析 


语法 分 析 是 决定 如 何 使 用 一 个 文法 生成 一 个 终结 符号 串 的 过 程 。 在 
讨论 这 个 问题 时 ， 我 们 可 以 想象 我 们 正在 构建 一 个 语法 分 析 树 ， 这 样 可 
以 帮助 我 们 理解 分 析 的 过 程 ， 尽 管 在 实践 中 编译 圳 并 没有 真 的 构造 出 这 
柠 树 。 然 而 ， 原 则 上 语法 分 析 韦 必须 能 够 构造 出 语法 分 析 树 ， 人 否则 将 无 
法 保证 翻译 的 正确 性 。 


本 节 将 介绍 一 种 称 为 “递归 下 降 ” 的 语法 分 析 方 法 ， 该 方法 可 以 用 于 
语法 分 析 和 实现 语法 制导 翻译 器 。 下 一 节 将 给 出 一 个 实现 了 图 2-15 中 的 
翻译 方案 的 完整 Java 程 序 。 另 一 种 可 行 的 方法 是 使 用 软件 工具 直接 根据 
翻译 方案 生成 一 个 翻译 器 。4.9 节 将 描述 一 个 这 样 的 工具 Yacc。 使 
用 这 个 工具 ， 无 需 修改 就 可 以 实现 图 2-15 中 的 翻译 方案 。 


对 于 任何 上 下 文 无 关 文 法 ， 我 们 都 可 以 构造 出 一 个 时 间 复 杂 上 度 为 
O (n3) 的 语法 分 析 器 ， 它 最 多 使 用 O (nm ) 的 时 间 就 可 以 完成 一 个 长 度 
为 n 的 符号 串 的 语法 分 析 。 但 是 ， 三 次 方 的 时 间 代 价 一 般 来 说 太 昂 贵 
了 。 和 幸运 的 是 ， 对 于 实际 的 程序 设计 语言 而 言 ， 我 们 通常 能 够 设计 出 一 
个 可 以 被 高 效 分 析 的 文法 。 线 性 时 间 复 杂 度 的 算法 足以 分 析 实 践 中 出 现 
的 各 种 程序 设计 语言 。 程 序 设计 语言 的 语法 分 析 器 几乎 总 是 一 次 性 地 从 
人 每 次 癌 前 看 一 个 终结 符号 ， 并 在 扫描 时 构造 出 分 析 树 
J 各 个 部 分 。 


大 多 数 语 法 分 析 方 法 都 可 以 归 入 以 下 两 类 : 自 顶 向 下 (top-down) 
方法 和 自 底 向 上 《bottom-up) 方法 。 这 两 个 术语 指 的 是 语法 分 析 树 结 点 
的 构造 顺序 。 在 自 顶 向 下 语法 分 析 器 中 ， 构 造 过 程 从 根 结 点 开始 ， 逐 步 
同时 子 结 点 方 癌 进行 ， 而 在 自 底 和 癌 上 语法 分 析 堪 中 ， 构 造 过 程 从 叶子 结 
点 开始 ， 逐 步 构造 出 根 结 点 。 自 顶 癌 下 语法 分 析 器 之 所 以 受 欢 迎 ， 是 因 
为 使 用 这 种 方法 可 以 较 容 易 地 手工 构造 出 高 效 的 语法 分 析 器 。 不 过 ， 自 
底 癌 上 分 析 方 法 可 以 处 理 更 多 种 文法 和 翻译 方案 ， 所 以 直接 从 文法 生成 
语法 分 析 器 的 软件 工具 梨 利 使 用 自 底 向 上 的 方法 。 

















2.4.1 上 和 目 顶 同 下 分 析 方 法 





我 们 在 介绍 自 顶 向 下 的 分 析 方 法 时 考虑 的 文法 适合 使 用 自 顶 向 下 分 
析 技 术 。 在 本 节 后 面 的 内 容 中 ， 我 们 将 考虑 构造 自 顶 向 下 语法 分 析 器 的 
一 般 方法 。 图 2-16 中 的 文法 生成 C 或 Java 语 句 的 一 个 子 集 。 我 们 分 别 用 
黑体 终结 符 证 和 for 表 示 关 键 字 *if” 和 *for”， 以 强调 这 些 字符 序列 被 视 为 
一 个 单元 ， 也 就 是 单个 终结 符号 。 此 外 ， 终 结 符 expr 代 表 表 达 式 。 一 个 
更 完整 的 文法 将 使 用 非 终结 符 号 expr， 并 带 有 多 个 关于 非 终结 符号 expr 
的 产生 式 。 类 似 地 ，other 是 一 个 代表 其 他 语句 构造 的 终结 符号 。 








stmt expr ; 
if ( expr ) stmt 
for ( optezpr ; opteZpr ; optezpr ) stmt 
other 


opterpr € 





图 2-16 C 和 Java 中 某 些 语句 的 文法 


在 目 顶 问 下 地 构造 一 棵 如 图 2-17 所 示 的 语法 分 析 树 时 ， 从 标号 为 开 
始 非 终 结 符 stmt 的 根 结 点 开始 ， 反 复 执行 下 面 两 个 步 又: 





stmt 、 
a | Oe 
for ( opterpr ; opterpr ; opterpr ) stmt 
| | | 
| expr expr other 


图 2-17 根据 图 2-16 中 的 文法 得 到 的 语法 分 析 树 


”1) 在 标号 为 非 终结 符号 A 的 结 反 N 上 ， 选 择 A 的 一 个 产生 式 ， 并 为 
该 产生 式 体 中 的 各 个 符号 构造 出 N 的 子 结 点 。 


2) 寻找 下 一 个 络 点 来 构造 子 树 ， 通 种 选择 的 是 语法 分 析 树 最 左边 
的 尚未 扩展 的 非 终 结 符 。 


对 于 东 些 文法 ， 上 面 的 步骤 只 需要 对 输入 串 进 行 一 次 从 左 到 右 的 扫 
描 就 可 以 完成 。 输 入 中 当前 被 扫描 的 终结 符 写 通常 称 为 向 前 看 





(lookahead) 符号 。 在 开始 时 ， 辐 前 看 符号 是 输入 串 的 第 一 个 〈 即 最 左 
的 ) 终结 符号 。 图 2-18 演 示 了 构造 如 下 输入 串 的 语法 分 析 树 的 过 程 : 


for (; expr; expr) other 


得 到 的 语法 分 析 树 如 图 2-17 所 示 。 一 开始 ， 回 前 看 符号 是 终结 符号 
for， 语 法 分 析 树 的 已 知 部 分 只 包含 标号 为 开始 非 终结 符号 stmt 的 根 结 
扩 ， 如 图 2-18a 所 示 。 我 们 的 目标 是 以 适当 的 方法 构造 出 语法 分 析 树 的 
其 余部 分 ， 使 得 这 标 树 生成 的 符号 串 与 输入 符 写 捉 匹 配 。 


为 了 与 输入 串 匹 配 ， 图 2-18a 中 的 非 终 结 符号 stmt 必 须 推 中 出 一 个 以 
回 前 看 符号 for 开 头 的 串 。 在 图 2-16 所 示 的 文法 中 ，stmt 只 有 一 个 产生 式 
可 以 推导 出 这 样 的 串 ， 所 以 我 们 选择 这 个 产生 式 ， 并 构造 出 根 结 点 的 各 
个 子 结 点 ， 并 使 用 该 产生 式 体 中 的 符号 作为 这 些 子 结 点 的 标号 。 这 株 语 
法 分 析 树 的 这 次 扩展 如 图 2-18b 所 示 。 


在 图 2-18 所 示 的 三 个 快照 中 ， 都 包含 一 个 指向 输入 串 中 向 前 看 符号 
的 第 头 和 一 个 指 癌 当前 正 被 考虑 的 语法 分 析 树 结 反 的 第 头 。 一 旦 一 个 结 
点 的 子 结 点 全 部 构造 完毕 ， 我 们 就 要 考虑 该 结 点 的 最 左 子 结 点 。 在 图 2- 
18b 中 ， 根 结 点 的 子 结 点 刚刚 构造 完毕 ， 下 一 个 要 考虑 的 结 点 是 标号 
为 for 的 最 左 子 结 点 。 
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图 2-18 从 左 到 右 扫 描 输 入 串 时 进行 的 自 顶 向 下 语法 分 析 


如 果 当 前 正 考虑 的 语法 分 析 树 结 点 的 标号 是 一 个 终结 答 写 ， 而 且 此 
终结 符号 与 问 前 看 符号 匹配 ， 那 么 语法 分 析 树 的 箭头 和 输入 的 箭头 都 前 
进一步 。 输 入 中 的 下 一 个 终结 符 成 为 新 的 同 前 看 符号 ， 同 时 考虑 语法 分 
析 树 的 下 一 个 子 结 点 。 在 图 2-18c 中 ， 语 法 分 析 树 的 箭头 指 同根 的 下 一 
个 子 绪 点 ， 输 入 中 的 箭头 已 经 前 进 到 下 一 个 终结 符号 ， 即 * 〈”。 再 下 一 
步 将 使 得 语法 分 析 树 的 箭头 指 同 标 号 为 非 终结 符号 optexpr 的 子 结 点 ， 并 
将 输入 的 箭头 指 网 终结 符号 “;， ”。 


在 标号 为 optexpr 的 非 终 结 符号 结 点 上 ， 我 们 需要 再 次 为 一 个 非 终结 
符号 选择 产生 式 。 以 Ee 为 体 的 产生 式 〈 即 E 产 生 式 ) 需要 特殊 处 理 。 当 
前 ， 我 们 将 Ee 产生 式 当 作 默 认 选 择 ， 只 有 在 没有 其 他 产生 式 可 用 时 才 会 
选择 它们 。 我 们 将 在 2.4.3 节 中 再 次 讨论 E 产 生 式 。 对 于 非 终结 符号 


J ee 


optexpr 和 和 向 前 看 符号 “; ”， 我们 使 用 optexpr 的 EE 产生 式 ， 因 为 “<; ”和 





optexpr 仅 有 的 另 一 个 产生 式 不 匹配 ， 那 个 产生 式 的 体 是 终结 符号 expr。 


一 般 来 说 ， 为 一 个 非 终 结 符号 选择 产生 式 是 一 个 “尝试 并 犯错 "的 过 
程 。 也 就 是 说 ， 我 们 首先 选择 一 个 产生 式 ， 并 在 这 个 产生 式 不 合适 时 进 
行 回 湖 ， 再 尝试 另 一 个 产生 式 。 一 个 产生 式 * 不 合适 "是 指使 用 了 该 产生 
式 之 后 ， 我 们 无 法 构造 得 到 一 棵 与 当前 输入 串 相 匹配 的 语法 分 析 树 。 但 
是 在 称 为 预测 语法 分 析 的 特殊 情形 下 不 需要 进行 回 湖 。 我 们 接 下 来 将 讨 
论 这 个 方法 。 








2.4.2 ”预测 分 析 法 


递归 下 降 分 析 方 法 (recursive-descent parsing) 是 一 种 自 顶 向 下 的 语 
法 分 析 方 法 ， 它 使 用 一 组 递归 过 程 来 处 理 输入 。 文 法 的 每 个 非 终 结 符 都 
有 一 个 相关 联 的 过 程 。 这 里 我 们 考虑 递归 下 降 分 析 法 的 一 种 简单 形式 ， 
称 为 预测 分 析 法 (predictive parsing) 。 在 预测 分 析 法 中 ， 各 个 非 终 结 符 
写 对 应 的 过 程 中 的 控制 流 可 以 由 同 前 看 符号 无 二 义 地 确定 。 在 分 析 输 入 
串 时 出 现 的 过 程 调 用 序列 隐 式 地 定义 了 该 输入 串 的 一 村 语法 分 析 树 。 如 
果 需 要 ， 还 可 以 通过 这 些 过 程 调 用 来 构建 一 个 显 式 的 语法 分 析 树 。 


图 2-19 的 预测 分 析 器 包含 了 两 个 过 程 stmtO) 和 optexpr()， 分 别 对 应 于 
图 2-16 中 文法 的 非 终 结 符号 stmt 和 optexpr。 该 分 析 器 还 包括 一 个 额外 的 
过 程 match。 这 个 额外 过 程 用 来 简化 stmt 和 optexpr 的 代码 。 过 程 
match 〈t) 将 它 的 参数 t 和 辣 前 看 符号 比较 ， 如 果 匹 配 就 前 进 到 下 一 个 输 
入 终结 符号 。 因 此 ，match 改 变 了 全 局 变量 lookhead 的 值 ， 该 变量 存储 了 
当前 正 被 扫描 的 输入 终结 符号 。 


void stmt() { 

switch ( lookahead ) { 

case expr: 
match(expr); match(’;’'); break; 

case if: 
match(if); match(’(’); match(expr); match(')’); stmt\(); 
break; 

case for: 
match(for); match(' (); 
opterpr(); match(’';'); optezpr(); match(’ ;'); optezpr(); 
match(')’); stmt(); breaki 

case other; 
match(other); break; 

default: 
report("syntax error"); 


} 


void optezpr() { 


if ( lookahead == expr ) match(expr); 


} 


void match(terminal 1) { 
if ( lookahead == t ) lookahead = nextTerminal; 
else report("syntax error"); 








图 2-19 ”一 个 预测 分 析 器 的 伪 代 码 


分 析 过 程 开始 时 ， 首 先 调用 文法 的 开始 非 终 结 符号 stmt 对 应 的 过 
程 。 在 处 理 如 图 2-18 所 示 的 输入 时 ，lookhead 被 初始 化 为 第 一 个 终结 符 
号 for。 过 程 stmt 执 行 和 如 下 产生 式 对 应 的 代码 : 


stmt — for (optexpr; optexpr; optexpr) stmt 


在 对 应 于 该 产生 式 体 的 代码 中 一 一 即 图 2-19 的 过 程 stmt 中 人 处理 for 语 
人 句 的 case 分 文 一 一 每 个 终结 符 部 和 同 前 看 符号 匹配 ， 而 每 个 非 终结 符 都 
产生 一 个 对 相应 过 程 的 调用 : 








match (for) ; match (" (')., 


optexpr(); match ('; ') ; optexpr(); match (’; ') ; optexprO; 


match (’) ') ; stmtO; 


预测 分 析 需 要 知道 哪些 符号 可 能 成 为 一 个 产生 式 体 所 生成 串 的 第 一 
个 符号 。 更 精确 地 说 ， 令 a 是 一 个 文法 符号 (终结 符号 或 非 终结 符 号 ) 
串 。 我 们 将 FIRST (a) 定义 为 可 以 由 a 生成 的 一 个 或 多 个 终结 符号 串 的 
第 一 个 符号 的 集合 。 如 果 a 束 是 E 或 者 可 以 生成 E， 那 么 EE 也 在 
FIRST (a) 中 。 


关于 计算 FIRST (a) 的 算法 的 详细 描述 将 在 4.4.2 节 中 给 出 。 这 
里 ， 我 们 将 使 用 不 具 一 般 性 的 推导 方法 来 求 出 FIRST (a) 中 的 符号 。 
通常 情况 下 ，a 要 么 以 一 个 终结 符号 开头 ， 此 时 该 终结 符号 就 是 
FIRST (a) 中 的 唯一 符号 ;， 要 么 a 以 一 个 非 终 结 符号 开头 ， 且 该 非 终 结 
符 的 所 有 产生 式 体 都 以 某 个 终结 符号 开头 ， 那 么 这 些 终结 符号 就 是 
FIRST (a) 的 所 有 成 员 。 


例如 ， 对 于 图 2-16 中 的 文法 ， 其 FIRST 的 正确 计算 如 下 : 


FIRST (stmt) = {expr, if, for, other} 





FIRST (expr; ) = {expr} 


如 果 有 两 个 产生 式 A a 和 A -PB， 我 们 就 必须 考虑 相应 的 FIRST 集 
合 。 如 果 我 们 不 考虑 eE 产生 式 ， 预 测 分 析 法 要 求 FIRST (a) 和 
FIRST(B) 不 相交 ， 那 么 就 可 以 用 回 前 看 符号 来 确定 应 该 使 用 哪个 产 
生 式 。 如 果 向 前 看 符号 在 FIRST (a) 中 ， 就 使 用 a。 如 果 向 前 看 符号 在 
FIRST (B) 中， 就 使 用 B。 


2.4.3” 何 时 使 用 EeE 产生 式 


我 们 的 预测 分 析 器 在 没有 其 他 产生 式 可 用 时 ， 将 e 产 生 式 作为 默认 
选择 使 用 。 处 理 图 2-18 所 示 的 输入 时 ， 在 终结 符号 for 和 “(” 匹 配 之 后 ， 
向 前 看 符号 为 “;，”。 此 时 ， 过 程 optexpr 被 调用 ， 其 过 程 体 中 的 代码 ; 

if (lookahead == expr) match (expr) ; 


被 执行 。 非 终结 符号 optexpr 有 两 个 产生 式 ， 它 们 的 体 分 别 是 expr 和 E 。 





回 前 看 符号 “;， ”与 终 络 符 号 expr 不 匹配 ， 因 此 不 能 使 用 以 expr 为 体 的 产 
生 式 。 事 实 上 ， 该 过 程 没 有 改变 癌 前 看 符号 ， 也 没有 做 任何 其 他 操作 束 
返回 了 。 不 做 任何 操作 就 对 应 于 应 用 E 产 生 式 的 情形 。 


对 于 更 加 一 般 化 的 情况 ， 我 们 考虑 图 2-16 中 产生 式 的 一 个 变 体 ， 其 
中 optexpr 生 成 一 个 表达 式 非 终结 符号 ， 而 不 是 终结 符号 expr: 


optexpr — expr 
| 上 


这 样 ，optexpr 要 么 使 用 非 终结 符号 expr 生 成 一 个 表达 式 ， 要 么 生成 
E 。 在 对 optexpr 进 行 语法 分 析 时 ， 如 果 癌 前 看 符号 不 在 FIRST (expr) 
中 ， 我 们 就 使 用 EeE 产生 式 。 


要 更 加 深入 地 了 解 应 该 在 何 时 使 用 EeE 产生 式 ， 请 参见 4.4.3 节 中 关于 
LL (1) 文法 的 讨论 。 


244 设计 一 个 珊 则 分 仙 


我 们 可 以 将 2.4.2 市 中 非 正式 介绍 的 搁 术 推广 应 用 到 任意 具有 如 下 性 
质 的 文法 上 : 对 于 文法 的 任何 非 终 结 符号 ， 它 的 各 个 产生 式 体 的 FIRST 
集合 互 不 相交 。 我 们 还 将 看 到 ， 如 有 果 我 们 有 一 个 翻译 方案 ， 即 一 个 增加 
了 语义 动作 的 文法 ， 那 么 我 们 可 以 将 这 些 语义 动作 当 作 此 语法 分 析 器 的 
过 程 的 一 部 分 执行 。 


回顾 一 下 ， 一 个 预测 分 析 器 (predictive parser) 程序 由 各 个 非 终结 
符 对 应 的 过 程 组 成 。 对 应 于 非 终 结 符 A 的 过 程 完成 以 下 两 项 任务 : 


1) 检查 向 前 看 符号 ， 决 定 使 用 A 的 哪个 产生 式 。 如 果 一 个 产生 式 
的 体 为 a〈 这 里 a 不 是 空 串 E ) 且 癌 前 看 符 写 在 FIRST (a) 中 ， 那 么 就 
选择 这 个 产生 式 。 对 于 任何 回 前 看 符 写 ， 如 果 两 个 非 空 的 产生 式 体 之 间 
存在 冲突 ， 我们 残 不 能 对 这 种 文法 使 用 预测 语法 分 析 。 男 外 ， 如 果 人 A 有 
E 产 生 式 ， 那 么 只 有 当 问 前 看 符号 不 在 A 的 其 他 产生 式 体 的 FIRST 集 合 
中 时 ， 才 会 使 用 A 的 Ee 产生 式 。 








2) 然后 ， 这 个 过 程 模拟 被 选中 产生 式 的 体 。 也 就 是 说 ， 从 左边 开 
台 逐 个 “执行 ?此 产生 式 体 中 的 符号 。*“ 执 行 ” 一 个 非 终结 符号 的 方法 是 调 
用 该 非 终 结 符号 对 应 的 过 程 ， 一 个 与 回 前 看 符号 匹配 的 终结 符号 的 “ 执 
行 ” 方 法 则 是 读 入 下 一 个 输入 符号 。 如 果 在 某 个 点 上 ， 产 生 式 体 中 的 终 
结 符号 和 向 前 看 符号 不 匹配 ， 那 么 语法 分 析 器 就 会 报告 一 个 语法 错误 。 

图 2-19 显 示 的 是 对 图 2-16 的 文法 应 用 这 些 规则 的 结果 。 

就 像 通 过 扩展 文法 来 得 到 一 个 翻译 方案 一 样 ， 我 们 也 可 以 扩展 一 个 
预测 分 析 器 来 获得 一 个 语法 制导 的 翻译 嚣 。 在 5.4 节 中 将 给 出 一 个 能 够 
达到 此 目的 的 算法 。 下 面 的 部 分 构造 方法 已 经 可 以 满足 当前 的 要 求 : 

1) 先 不 考虑 产生 式 中 的 动作 ， 构 造 一 个 预测 分 析 器 。 

2) 将 翻译 方案 中 的 动作 拷贝 到 语法 分 析 器 中 。 如 果 一 个 动作 出 现 
在 产生 式 p 中 的 文法 符号 X 的 后 面 ， 则 该 动作 就 被 拷贝 到 p 的 代码 中 XX 的 
实现 之 后 。 否 则 ， 如 果 该 动作 出 现在 一 个 产生 式 的 开头 ， 那 么 它 束 被 找 
贝 到 该 产生 式 体 的 实现 代码 之 前 。 


我 们 将 在 2.5 市 构造 这 样 一 个 翻译 右 。 














2.4.5 左 递归 


递归 下 降 语法 分 析 器 有 可 能 进入 无 限 循 环 。 当 出 现 如 下 所 示 的 “ 左 
加 归 ” 产 生 式 时 ， 分 析 器 就 会 出 现 无 限 循环 : 


expr — eXpr + term 


在 这 里 ， 产 生 式 体 的 最 左边 的 符号 和 产生 式 头 部 的 非 终结 符 相 同 。 假 设 
expr 对 应 的 过 程 决 定 使 用 这 个 产生 式 。 因 为 产生 式 体 的 开头 是 expr， 所 
以 expr 对 应 的 过 程 将 被 递归 调用 。 由 于 只 有 当 产 生 式 体 中 的 一 个 终结 符 
号 被 成 功 匹 配 时 ， 癌 前 看 符号 才 会 发 生 改变 ， 因 此 在 对 expr 的 两 次 调用 
之 间 和 输入 符号 没有 发 生 改 变 。 结 订 ， 第 二 次 expr 调 用 所 做 的 事情 与 第 一 
次 调用 所 做 的 完全 相同 ， 这 意味 着 会 对 expr 进 行 第 三 次 调用 ， 并 不 断 重 
复 ， 进 入 无 限 循环 。 











通过 改写 有 问题 的 产生 式 就 可 以 消除 左 递 归 。 考 虑 有 两 个 产生 式 : 
A—Aa | B 


的 非 终 结 符 写 A， 其 中 a 和 B 是 不 以 A 开头 的 终结 符号 / 非 终 结 符号 的 厅 
列 。 例 如 ， 在 产生 式 


expr — expr + term | term 
中 ， 非 终结 符号 A=expr， 串 a= + term， 串 B=term 。 
因为 产生 式 A -Aa 的 右 部 的 最 左 符号 是 A 自生 ， 非 终结 符号 A 和 它 
的 产生 式 就 称 为 左 递归 的 《〈]left recursive) 鳃 。 不 断 应 用 这 个 产生 式 将 在 


A 的 右边 生成 一 个 a 的 序列 ， 如 图 2-20a 所 示 。 当 A 最 终 被 蔡 换 为 B 时 ， 我 
们 就 得 到 了 一 个 在 B 后 跟 有 0 个 或 多 个 a 的 序列 。 




















图 2-20 ”生成 一 个 串 的 左 递归 方式 和 右 递归 方式 


如 图 2-20b 所 示 ， 使 用 一 个 新 的 非 终 结 符号 R， 并 按照 如 下 方式 改写 
A 的 产生 式 可 以 达到 同样 的 效果 : 


A — BR 
R—-aR|E 


非 终 结 符号 R 和 它 的 产生 式 R aR 是 右 递归 的 (right recursive) ， 
因为 这 个 产生 式 的 右 部 的 最 后 一 个 符号 就 是 R 本 身 。 如 图 2-20b 所 示 ， 碳 
递归 的 产生 式 会 使 得 树 同 右 下 方 加 生长。 因为 树 是 同 右 下 生长 的 ， 对 包 
含 了 左 结 合 运 算 符 《比如 减法 ) 的 表达 式 的 翻译 就 变 得 较为 困难 。 然 
而 ， 我 们 将 在 2.5.2 节 看 到 ， 通 过 仔细 设计 翻译 方案 ， 我 们 仍然 可 以 将 一 
个 表达 式 正确 地 翻译 成 后 级 表达 式 。 


在 4.3.3 节 ， 我 们 将 考虑 更 一 般 的 左 递归 形式 ， 并 说 明 如 何 从 文法 中 
消除 左 递归 。 











2.4.6 2.4 节 的 练习 


练习 2.4.1: 为 下 列 文法 构造 递归 下 降 语 法 分 析 器 : 
1)S ,+SS|-SSla 
2)S SsS(S)S|e 


3)S ,0S1|01 


2.5 简单 表达 式 的 翻译 器 


使 用 前 面 三 节 介 绍 的 技术 ， 现 在 我 们 可 以 用 Java 语 言 编写 一 个 语法 
制导 翻译 器 。 这 个 翻译 器 可 以 把 算术 表达 式 翻 译 成 等 价 的 后 绥 形 式 。 为 
了 使 最 初 的 程序 比较 小 且 容 易 理解 ， 我 们 首先 处 理 最 简单 的 表达 式 ， 即 
由 二 目 运算 符 加 号 和 减 号 分 隔 的 数位 序列 。 在 2.6 节 中 ， 我 们 将 扩展 这 
个 程序 ， 使 它 能 够 翻译 包含 数字 和 其 他 运算 符 的 表达 式 。 由 于 表达 式 是 
RE 因此 深入 研究 表达 式 的 翻译 问题 是 有 意义 





语法 制导 翻译 方案 常常 作为 翻译 占 的 规约 。 图 2-21 (图 2-15 的 重 
复 ) 中 的 翻译 方案 定义 了 将 要 执行 的 翻译 过 程 。 


eZDr + term {print(+')} 
eZD7 - term { print(- ) } 
term 


term 一 0 { print(’0’) } 
| 1 { print( 二) } 


| 9 { print(’9’) } 





图 2-21 翻译 为 后 级 表示 形式 的 动作 


在 使 用 一 个 预测 语法 分 析 吉 进行 语法 分 析 时 ， 我 们 常常 需要 修改 一 
个 给 定 翻译 方案 的 基础 文法 。 特 别 地 ， 图 2-21 中 的 翻译 方案 的 文法 是 左 
递归 的 。 如 上 市 所 述 ， 预 测 语法 分 析 絮 不 能 处 理 左 递归 的 文法 。 


现在 我 们 看 起 来 处 在 矛盾 之 中 : 一 方面 ， 我 们 需要 一 个 能 够 支持 翻 
译 规 约 的 文法 ， 必 一 方面 ， 我 们 又 需要 一 个 明显 不 同 的 能 够 文 持 语 法 分 
析 过 程 的 文法 。 解 决 的 方法 是 首先 使 用 易于 翻译 的 文法 ， 然 后 再 小 心地 
对 这 个 文法 进行 转换 ， 使 之 能 够 文 持 语法 分 析 。 通 过 消除 图 2-21 中 的 左 
递归 ， 我 们 可 以 得 到 一 个 适用 于 预测 递归 下 降 翻译 需 的 文法 。 








2.5.1 抽象 语法 和 有 具体 语法 


设计 一 个 翻译 器 时 ， 名 为 抽象 语法 树 (abstract syntax tree) 的 数据 
结构 是 一 个 很 好 的 起 点 。 在 一 个 表达 式 的 抽象 语法 树 中 ， 每 个 内 部 结 点 
代表 一 个 运算 符 ， 该 结 点 的 子 结 点 代表 这 个 运算 符 的 运算 分 量 。 对 于 更 
加 一 般 化 的 情况 ， 当 我 们 处 理 任意 的 程序 设计 语言 构造 时 ， 我 们 可 以 创 
建 一 个 针对 这 个 构造 的 运算 符 ， 并 把 这 个 构造 的 具有 语义 信息 的 组 成 部 
分 作为 这 个 运算 符 的 运算 分 量 。 


9-5+2 的 抽象 语法 树 如 图 2-22 所 示 ， 其 中 根 结 点 代表 运算 符 +， 根 结 
点 的 子 树 分 别 代 表 子 表达 式 9-5 和 2。 将 9-5 组 成 一 个 运算 分 量 反映 了 在 
对 优先 级 相同 的 运算 符 求 值 时 ， 求 值 顺序 总 是 从 左 到 右 的 。 因 为 + 和 - 具 
有 相同 的 优先 级 ， 因 此 9-5+2 等 价 于 (9-5) +2。 


抽象 语法 树 也 简称 语法 树 (syntax tree) ， 在 某 种 程度 上 和 话 法 分 
析 树 相似 。 但 是 在 抽象 语法 树 中 ， 内 部 结 点 代表 的 是 程序 构造 ， 而 在 语 
法 分 析 树 中 ， 内 部 结 点 代表 的 是 非 终 结 符 号 。 文 法 中 的 很 多 非 终结 符号 
都 代表 程序 的 构造 ， 但 也 有 一 部 分 是 各 种 各 样 的 辅助 符 写 ， 比 如 那些 代 
表 项 、 因 子 或 其 他 表达 式 变 体 的 非 终结 符号 。 在 抽象 语法 树 中 ， 通 名 不 
需要 这 些 辅助 人 符号， 因此 会 将 这 些 符 号 省 略 挥 。 为 了 强调 它们 之 间 的 区 
别 ， 我 们 有 时 把 语法 分 析 树 称 为 具体 语法 树 (concrete syntax tree) ， 而 
相应 的 文法 称 为 该 语言 的 具体 语法 (concrete syntax) 。 


在 图 2-22 给 出 的 语法 树 中 ， 每 个 内 部 结 点 都 和 一 个 运算 符 关 联 。 树 
中 没有 对 应 于 expr -term 这 样 的 单产 生 式 〈 即 产生 式 体 中 仅 包 含 一 个 非 
终结 符号 的 产生 式 ) 的 “辅助 ? 结 点 ， 也 没有 对 应 于 E 产 生 式 〈 比 如 
rest 一 二 ) 的 结 点 。 


























Ed 
a 


图 2-22 9-5+2 的 语法 树 


我 们 希望 翻译 方案 的 基础 文法 的 语法 分 析 树 与 抽象 语法 树 尽 可 能 相 
近 。 图 2-21 中 的 文法 对 子 表 达 式 进行 分 组 的 方式 与 语法 树 的 分 组 方式 相 
如 ， 加 运算 符 的 子 表 达 式 是 由 产生 式 体 expr+tern 中 的 expr 和 term 
给 出 的 。 





2.5.2 ”调整 翻译 方案 


图 2-20 中 简 述 的 堪 递归 消除 技术 同样 可 以 应 用 于 包含 了 语义 动作 的 
产生 式 。 首 先 ， 该 技术 被 扩展 到 A 的 多 个 产生 式 中 。 在 我 们 的 例子 中 ， 
A 就 是 expr， 它 有 两 个 expr 的 左 递 归 产 生 式 和 一 个 非 左 递归 的 产生 陈 。 
这 个 技术 将 产生 式 A ,Aa| AB | y 转 换 成 





R ,oR|BR| E 

其 次 ， 我 们 要 转换 的 产生 式 不 仅 包 合 终 结 符 号 和 非 终结 符号 ， 还 包 
含 内 髓 动作 。 风 入 在 产生 式 中 的 语义 动作 在 转换 时 被 当 作 终 结 符号 直 
进行 复制 。 
考虑 图 2-21 中 的 翻译 方案 。 令 

A= expr 

oa= + term{print ('+’) } 

=-term{print ('-’) } 

y= term 
那么 进行 左 递归 消除 转换 后 将 产生 如 图 2-23 所 示 的 翻译 方案 。 图 2-21 中 
的 expr 产 生 式 已 经 转换 成 expr 和 新 非 终结 从 号 rest 的 产生 式 ， 其 中 rest 扮 


演 了 R 的 角色 。term 的 产生 式 束 是 图 2-21 中 term 的 产生 式 。 图 2-24 展 示 了 
使 用 图 2-23 中 的 文法 对 9-5+2 进 行 翻 译 的 过 程 。 


term rest 

+ term { print('+’) } rest 
- term { print(-') } rest 
€ 


0 {print('0’) } 
1 Tint( Yj 


9 { print('9’) } 





图 2-23 ”消除 左 递归 后 的 翻译 方案 


eTpT 


i- 


term, rest 
、 3 


» 


9 {print(’9')} - term {print(-’)} rest 
5 {print(5)} + term {print(+’)} rest 
2 {print('2')} € 


图 2-24 ”从 9-5+2 到 95-2+ 的 翻译 


左 递归 消除 的 工作 必须 小 心 进 行 ， 以 确保 消除 后 的 结果 保持 语义 动 
作 的 顺序 。 例 如 ， 在 图 2-23 的 翻译 方案 中 ， 动 作 {print ('+') } 和 
{print《'-')} 都 处 于 产生 式 体 的 中 间 ， 两 边 分 别 是 非 终 结 符号 term 和 
rest。 假 如 将 这 个 动作 放 到 产生 式 的 末尾 ， 即 rest 之 后 ， 那 么 这 个 翻译 就 
是 不 正确 的 。 请 读者 自己 证 明 ， 假 如 这 么 做 ，9-5+2 就 会 被 错误 地 转换 
成 952+-， 它 是 9- (5+2) 的 后 级 表示 方式 ;而 我 们 实际 想 要 的 是 952+-， 
即 (9-5) +2 的 后 缀 表示 方式 。 








2.5.3” 非 终结 从 号 的 过 程 


图 2-25 中 的 函数 expr、term 和 rest 实 现 了 图 2-23 中 的 语法 制导 翻译 方 


案 。 这 些 函 数 模拟 了 对 应 于 非 终结 符号 的 各 个 产生 式 体 。 函 数 expr 先 调 
用 term() 再 调用 rest()， 从 而 实现 产生 式 expr -term rest。 


疯 数 rest 实 现 了 图 2-23 中 非 终结 符 rest 的 三 个 产生 式 。 如 果 问 前 看 符 
号 是 加 号 ， 这 个 函数 就 使 用 第 一 个 产生 式 ;， 如 果 问 前 看 符号 是 减 写 ， 束 
使 用 第 二 个 产生 式 ; 在 其 他 情况 下 使 用 产生 式 rest” E 。 非 终结 符号 rest 
的 前 两 个 产生 式 是 用 过 程 rest 中 站 语句 的 前 两 个 分 支 实现 的 。 如 果 癌 前 看 
从 写 是 +， 束 调用 match 〈'+') 来 匹配 它 。 在 调用 term0 之 后 ， 相 应 的 语 
义 动作 通过 输出 一 个 加 号 来 实现 。 第 二 个 产生 式 与 此 类 似 ， 只 是 用 -代替 
+。 因为 rest 的 第 三 个 产生 式 的 右 部 是 E， 所 以 函数 rest 中 最 后 一 个 else 子 
句 不 做 任何 处 理 。 


非 终 结 符号 term 的 十 个 产生 式 生 成 十 个 数位 。 因 为 每 一 个 产生 式 都 
生成 一 个 数位 并 打印 ， 所 以 在 图 2-25 中 用 相同 的 代码 实现 这 些 产 生 式 。 
如 果 termO 中 的 条 件 表 达 式 成 立 ， 变 量 t 中 就 保存 lookahead 代 表 的 数位 ， 
它 将 在 调用 完 match 之 后 被 打印 出 来 。 注 意 ，match 会 改变 同 前 看 符号 ， 
所 以 我 们 需要 t 保 存 这 个 数位 ， 以 便 稍 后 打印 输出 乌 。 

















void ezpr() { 
term(); rest(); 
} 


void rest() { 
if ( lookahead == “+ ) { 
match('+'); term(); print(’+'); rest(); 


else if ( lookahead == '-" ) { 
match('-'); term(); print(’-'); rest(); 


} 
else { } /* 不 对 输入 作 任何 处 理 * / ; 


} 


void term() { 
证 ( lookahead 是 一 个 数位 ) { 
t = lookahead; match(lookahead); print(t); 


else report(" 语 法 错误 " ); 





图 2-25 ” 非 终 结 符 expr、rest 和 term 的 伪 代 三 
2.5.4 翻译 器 的 简化 


在 给 出 完整 的 程序 之 前 ， 我 们 将 对 图 2-25 中 的 代码 做 两 处 简化 。 这 
个 简化 将 把 过 程 rest 展 开 到 过 程 expr 中 。 在 翻译 具有 多 个 优先 级 的 表达 
式 时 ， 这 样 的 简化 处 理 可 以 减少 需要 使 用 的 过 程 数目 。 


站 先 ， 某 些 递 归 调 用 可 以 被 蔡 换 为 迭代 。 如 果 一 个 过 程 体 中 执行 的 
最 后 一 条 语句 是 对 该 过 程 的 递归 调用 ， 那 么 这 个 调用 就 称 为 是 尾 递 归 的 
(tail recursive) 。 例如 ， 在 函数 rest 中 ， 当 问 前 看 符号 为 + 和 -时 对 rest(0) 
的 调用 都 是 尾 递归 的 。 因 为 在 每 个 分 文中 ， 对 rest 的 递归 调用 都 是 调用 
rest 时 执行 的 最 后 一 条 语句 。 


对 于 没有 参数 的 过 程 ， 一 个 尾 递归 调用 可 以 被 符 换 为 跳 转 到 过 程 开 


头 的 语句 。 过 程 rest 的 代码 可 以 被 改写 为 图 2-26 中 的 伪 代 码 。 只 要 回 前 
看 符号 是 一 个 加 号 或 一 个 减 号 ， 过 程 rest 束 和 该 符号 匹配， 并 调用 term 
来 匹配 一 个 数位 ， 然 后 重复 这 一 过 程 。 否 则 ， 它 就 跳出 while 循 环 并 从 
rest 返 回 。 











void rest() { 
while( true ) { 
if( lookahead == + ) { 
match('+’); term(); print(’+’); continue:; 


else if ( lookahead == '-’ ) 


match('-’); term(); print(’-’); continue; 


} 
break ; 





图 2-26 消除 图 2-25 中 过 程 rest 的 尾 递归 
其 次 ， 整 个 Java 程 序 还 包含 另 一 处 修改 。 一 旦 图 2-25 中 rest 过 程 的 尾 
递归 调用 被 蔡 换 为 迭代 过 程 ， 那 么 对 rest 的 调用 仪 仅 出 现在 过 程 expr 
中 。 因 此 ， 将 过 程 expr 中 对 rest 的 调用 蔡 换 为 rest 的 过 程 体 ， 就 可 以 将 这 
两 个 函数 合 二 为 一 。 


2.5.5 完整 的 程序 





我 们 的 翻译 器 的 完整 Java 程 序 显 示 在 图 2-27 中 。 第 一 行 以 import 开 
头 ， 使 得 程序 可 以 访问 java.io 包 以 进行 系统 输入 和 输出 。 其 余 的 代码 
包括 两 个 类 : parser 和 Postfix。 类 parser 包 含 变 量 lookahead 稍 
数 Parser、expr、term 和 match。 


import java.io.*; 
class Parser { 
static int lookahead; 


public Parser() throws IOException { 
lookahead = System.in.read(); 


} 


void expr() throws IOException { 
term(); 
while(true) { 
if( lookahead == '+' ) { 
match('+'); term(); System.out.write('+'); 
} 
else if( lookahead == '-' ) 1 
match('-'); term(); System.out.write('-'); 
} 


else return; 


下 


void term() throws IOException { 
if( Character.isDigit((char)lookahead) ) { 
System.out .write((char)lookahead); match(lookahead); 


} 
else throw new Error('"syntax error"); 


. 


void match(int t) throws IOException { 
if( lookahead == t ) lookahead = System.in.read(); 
else throw new Error("syntax error'"); 


public class Postfix { 
public static void main(String[] args) throws IOException { 
Parser parse = new Parser(); 
parse.expr(); System.out.write('\n'); 





图 2-27 将 中 级 表达 式 翻 译 为 后 级 表达 形式 的 Java 程 序 


程序 的 执行 从 类 postfix 中 定义 的 函数 main 开 始 。 函 数 main 创 建 了 一 
个 Parser 类 的 实例 parse， 然 后 调用 它 的 函数 expr 对 一 个 表达 式 进 行 语法 
分 析 。 


和 类 parser 同 名 的 函数 Parser 是 该 类 的 构造 吕 数 (constructor) ， 它 


在 创建 该 类 的 一 个 对 象 时 自动 调用 。 请 注意 ， 根 据 类 Parser 开 始 处 的 定 
义 ， 构 造 函 数 Parser 读 入 一 个 词法 单元 ， 并 将 变量 lookahead 初 始 化 为 这 
个 词法 单元 。 由 单个 字符 组 成 的 词法 单元 是 由 系统 输入 例 程 read 提 供 
的 ， 该 子 程 序 从 输入 文件 中 读 取 下 一 个 字符 。 注 意 ，lookahead 被 声明 
为 整 型 变量 ， 而 不 是 字符 型 变量 。 这 是 为 了 便于 在 后 面 引 入 非 单个 字符 
的 其 他 词法 单元 。 


函数 expr 是 2.5.4 节 中 讨论 的 简化 处 理 的 结果 。 它 实现 了 图 2-23 中 的 
非 终结 符 号 expr 和 rest。 图 2-27 中 expr 的 代码 首先 调用 term， 然 后 用 一 
个 while 循 环 不 断 测 试 1ookahead 是 否 和 + 或 -匹配 。 当 运行 到 代码 中 的 
return 语 句 时 ， 控 制 流离 开 这 个 while 循 环 。 在 循环 内 部 ，system 类 的 输 
入 /输出 功能 用 来 写 一 个 字符 。 

函数 term 使 用 Java 类 character 中 的 例 程 ijspigit 来 判断 癌 前 看 符号 
是 否 为 一 个 数位 。 例 程 ispigit 的 参数 是 一 个 字符 。 然 而 ， 为 了 方便 将 
来 的 扩展 ，1lookahead 被 声明 为 整 型 变量 。 (char) lookahead 
将 lookahead 的 类 型 强制 转化 (cast) 为 字符 。 和 图 2-25 相 比 ， 这 里 有 一 
0 的 改动 ， 即 输出 向 前 看 字符 的 语义 动作 在 调用 match 之 前 就 执行 








函数 match 检 查 终结 符 写 。 如 果 问 前 看 符 写 是 匹配 的 ， 它 束 读 取 下 
一 个 输入 终结 符 写 ， 否 则 它 执 行 下 面 的 代码 ， 友 出 出 错 消 居 。 


throw new Error("syntax error'"); 


上 述 代码 创建 了 类 Error 的 一 个 新 异常 ， 并 将 “syntax error” 作 为 其 
错误 消息 。Java 并 不 强制 要 求 在 throw 子 句 中 声明 Error 异 常 ， 因 为 这 些 








异常 的 本 意 是 表示 不 应 该 发 生 的 不 正常 事件 。 回 





Java 的 一 些 主要 特征 


对 于 不 熟悉 Java 的 读者 来 说 ， 下 面 的 一 些 注解 有 助 于 他 们 阅读 图 
2-27 中 的 代码 : 


。 一 个 Java 的 类 由 变量 和 函数 定义 的 序列 组 成 。 
。 函数 〈 例 程 ) 的 参数 列表 用 括号 括 起 来 ， 即 使 没有 参数 也 需要 写 


出 括号 ， 因 此 我 们 写成 expr() 和 term()。 这 些 函 数 实际 上 是 过 
人 因为 它们 的 函数 名 字 前 面 的 关键 字 void 表 示 它 们 没有 返回 
函数 之 间 通 信 时 可 以 通过 “ 值 传递 方式 ”传递 参数 ， 也 可 以 通过 访 
问 共享 数据 进行 通信 。 比 如 ， 函 数 expr() 和 term() 使 用 类 变量 
lookahead 来 检查 问 前 看 符号 。 这 两 个 函数 都 可 以 访问 这 个 类 变 
量 ， 因 为 它们 同属 于 类 parser。 
ee 
\ 等 可。 

term() 定 义 中 的 子 句 “throw IOException” 声 明 该 函数 在 执行 时 可 
能 会 出 现 一 个 名 为 I0Exception 的 异常 。 当 函数 match 调 用 例 

程 read 时 ， 如 果 无 法 读 到 输入 就 会 出 现 这 样 的 异常 。 任 何 调用 了 











match 的 函数 也 必须 声明 在 该 函数 运行 时 可 能 出 现 一 
个 IOException 异 和 常 。 





2.6 ”词法 分 析 


一 个 词法 分 析 器 从 输入 中 该 取 字 符 ， 并 将 它们 组 成 <* 词 法 单元 对 
象 "。 除 了 用 于 语法 分 析 的 终结 符号 之 外 ， 一 个 词法 单元 对 象 还 包含 一 
些 附加 信息 ， 这 些 信息 以 属性 值 的 形式 出 现 。 至 今 为 止 ， 我们 还 不 需要 
区 分 术语 “词法 单元 "和 “终结 符 写 "， 因 为 语法 分 析 器 忽略 了 词法 单元 中 
带 有 的 属性 值 。 在 本 节 中 ， 一 个 词法 单元 就 是 一 个 带 有 附加 信息 的 终结 


太 夺 品 


符号 。 


构成 一 个 词法 单元 的 输入 字符 序列 称 为 词素 (lexem) 。 因 此 ， 我 
La 以 说 ， 词 法 分 析 恬 使 得 语法 分 析 右 不 需要 考虑 词法 单元 的 词素 表示 
六 


本 节 的 词法 分 析 器 允许 在 表达 式 中 出 现 数 字 、 标 识 符 和 “空白 ”( 空 
格 、 制 表 符 和 换行 符 ) 。 它 可 以 用 于 扩展 上 一 节 中 介绍 的 表达 式 翻 译 
器 。 要 人 允许 在 表达 式 中 出 现 数字 和 标识 符 ， 束 必须 扩展 图 2-21 中 的 表达 
式 文法 。 借 此 机 会 我 们 还 将 使 扩展 后 的 文法 文 持 乘 法 和 除法 和 运算。 扩展 
后 的 翻译 方案 如 图 2-28 所 示 。 





erprt femm, 4 mint( ee) | 
eZD7 - term { print( - ) } 
term 


term * factor { print('*’) } 
} 


term / factor { print('/') 
factor 


( ezpr ) 
num { print(num.value) } 
id { print(id.lezeme) } 





图 2-28 ”翻译 得 到 后 级 表示 方式 的 语义 动作 


在 图 2-28 中 ， 假 定 终结 符号 num 具 有 属性 num.value， 访 属性 给 出 了 








对 应 于 num 的 本 次 出 现 的 整数 值 。 终 结 符号 id 有 个 值 为 字符 串 类 型 的 
属性 ， 写 作 id.lexeme。 我 们 假设 这 个 字符 串 就 是 这 个 庆 实 例 的 实际 词 


妨 、\ 9 


在 本 节 结 束 时 ， 这 些 被 用 来 演示 词法 分 析 韦 的 工作 方式 的 伪 代 码 片 
段 将 被 组 合成 Java 人 代码。 本 节 中 介绍 的 方法 适合 于 手写 的 词法 分 析 需 。 
3.5 市 描述 了 一 个 可 根据 一 个 词法 规范 生成 词法 分 析 占 的 工具 Lex。 用 于 
保存 标识 符 相 关 信 息 的 符号 表 或 数据 结构 将 在 2.7 节 中 讨论 。 














2.6.1 吻 除 空白 和 注释 


2.5 市 的 表达 式 翻 译 器 读 取 输 入 中 的 每 个 字符 ， 所 以 任何 无 关 字 
符 ， 比 如 空格 ， 都 会 使 它 运 行 失败 。 大 部 分 语言 允许 词法 单元 之 间 出 现 
任意 数量 的 空白 。 在 语法 分 析 过 程 中 同样 会 忽略 源 程 序 中 的 注释 ， 所 以 
这 些 注释 也 可 以 当 作 空白 处 理 。 


如 果 词法 分 析 器 消除 了 空白 ， 那 么 语法 分 析 器 就 不 必 再 考虑 它们 
了 。 当 然 ， 也 可 以 修改 文法 使 得 语法 中 包含 空白 ， 但 是 实现 这 个 方法 远 
非 易 事 。 


图 2-29 中 的 伪 代 码 在 遇 到 空格 、 制 表 符 或 换行 符 时 不 断 读 取 输 入 字 
符 ， 从 而 跳 过 了 空白 部 分 。 变 量 peek 存 放 了 下 一 个 输入 字符 。 在 错误 消 
恩 中 加 入 行 号 和 上 下 文 有 助 于 定位 错误 。 这 个 代码 使 用 变量 line 统 计 输 
入 中 的 换行 符 个 数 。 














for ( ; ; peek = next input character ) { 
if ( peek is a blank or a tab ) do nothing; 


else if ( peek is a newline ) line = linet!1; 
else break; 





图 2-29 ” 跳 过 空白 部 分 


2.6.2” 预 读 


在 决定 同 语法 分 析 旧 返 回 哪个 词法 单元 之 前 ， 词 法 分 析 融 可 能 需要 
预先 读 入 一 些 字 符 。 例 如 ，C 或 Java 的 词法 分 析 器 在 遇 到 字符 > 之 后 必须 
预先 读 入 一 个 字符 。 如 果 下 一 个 字符 是 =， 那 么 > 就 是 字符 序列 >= 的 一 
部 分 ， 这 个 序列 是 代表 “大 于 等 于 ”运算 符 的 词法 单元 的 词素。 否则 > 本 
身 形 成 了 “大 于 ”运算 符 ， 词 法 分 析 咒 就 多 读 了 一 个 字符 。 


一 个 通用 的 预先 读 取 输 入 的 方法 是 使 用 输入 缓冲 区 。 词 法 分 析 器 可 
以 从 缓冲 区 中 读 取 一 个 字符 ， 也 可 以 把 字符 放 回 缓冲 区 。 即 使 仅 从 效率 
的 角度 看 ， 使 用 缓冲 区 也 是 有 意义 的 ， 因 为 一 次 读 取 一 块 字 符 要 比 每 次 
读 取 单个 字符 更 加 高 效 。 我 们 可 以 用 一 个 指针 来 跟踪 已 被 分 析 的 输入 部 
分 ， 问 缓冲 区 放 回 一 个 字符 可 以 通过 回 移 指针 来 实现 。 输 入 缓冲 技术 将 
在 3.2 节 中 讨论 。 


因为 通常 只 需 预 读 一 个 字符 ， 所 以 一 种 简单 的 解决 方法 是 使 用 一 个 
变量 ， 比 如 peek， 来 保存 下 一 个 输入 字符 。 在 读 入 一 个 数字 的 数位 或 一 
个 标识 符 的 字符 时 ， 本 市 的 词法 分 析 器 会 预 读 一 个 字符 。 例 如 ， 它 在 1 
后 面 预 读 一 个 字符 来 区 分 1 和 10， 在 t 后 预 读 一 个 字符 来 区 分 t 和 true。 


词法 分 析 器 只 在 必要 时 才 进 行 预 读 。 像 * 这 样 的 运算 符 不 需 预 读 束 
能 够 识别 。 在 这 种 情况 下 ，peek 的 值 被 设置 为 空白 符 。 词 法 分 析 器 在 寻 
找 下 一 个 词法 蛙 元 时 会 跳 过 这 个 空白 符 。 本 节 中 的 词法 分 析 器 的 不 变 式 
上 条 言 如 下 : 当 词 法 分 析 圳 返回 一 个 词法 单元 时 ， 变 量 peek 要 么 保存 了 当 
前 词法 单元 的 词素 后 的 那个 字符 ， 要 么 保存 空白 符 。 














2.6.3 ”和 常量 


在 一 个 表达 式 的 文法 中 ， 任 何 允 许 出 现 数位 的 地 方 都 应 该 允许 出 现 
任意 的 整 型 常量 。 要 使 得 表达 式 中 可 以 出 现 整数 常量 ， 我 们 可 以 创建 一 
个 代表 整 型 常量 的 终结 符号 ， 比 如 num， 也 可 以 将 整数 常量 的 语法 加 入 
到 文法 中 。 将 字符 组 成 整数 并 计算 它 的 数值 的 工作 通常 是 由 词法 分 析 器 
完成 的 ， 因 此 在 语法 分 析 和 翻译 过 程 中 可 以 将 数字 当 作 一 个 单元 进行 处 
理 ， 





当 在 输入 流 中 出 现 一 个 数位 序列 时 ， 词 法 分 析 器 将 向 语法 分 析 器 传 
送 一 个 词法 单元 。 该 词法 单元 包含 终结 符号 num 及 根据 这 些 数位 计算 得 
到 的 整 型 属性 值 。 如 果 我 们 把 词法 单元 写成 用 〈(〉 插 起 来 的 元 组 ， 那 么 
输入 31+28+59 就 被 转换 成 序列 


(num, 31) (+) (num, 28) (+) (‘num, 59) 


在 这 里 ， 终 结 符 写 + 没有 属性 ， 所 以 它 的 元 组 就 是 《+〉。 图 2-30 中 
的 伪 代 码 读 取 一 个 整数 中 的 数位 ， 并 用 变量 v 累 计 得 到 这 个 整数 的 值 。 


if ( peek holds a digit ) { 
羽生 0: 
do { 


v = u*#kl0 十 integer value of digit peek; 
peek = next input character; 

} while ( peek holds a digit ); 

return token (num, v); 





图 2-30 将 数位 组 成 整数 
2.6.4 识别 关键 字 和 标识 符 
大 多 数 程序 设计 语言 使 用 for、do、if 这 样 的 固定 字符 串 作 为 标点 
符号 ， 或 者 用 于 标识 某 种 构造 。 这 些 字 符 串 称 为 关键 字 (keyword) 。 
字符 串 还 可 以 作为 标识 符 ， 来 为 变量 、 数 组 、 函 数 等 俞 名 。 为 了 简 
化 语法 分 析 器 ， 语 言 的 文法 通 稼 把 标识 符 当 作 终 结 符号 进行 处 理 。 当 某 


个 标识 符 出 现在 输入 中 时 ， 语 法 分 析 器 都 会 得 到 相同 的 终结 符号 ， 如 
id。 例 如 ， 在 处 理 如 下 输入 时 


count = count + increment; (2.6) 


语法 分 析 器 处 理 的 是 终结 符号 序列 id = id + id。 词 法 单元 id 有 一 个 
属性 保存 它 的 词素 。 将 词法 单元 写作 元 组 形式 ， 我 们 看 到 输入 尝 


(2.6) 的 元 组 序列 是 
(id, "count") (=) (id, "count") (+) (id, "increment") (;) 


关键 字 通 各 也 满足 标识 符 的 组 成 规则 ， 因 此 我 们 需要 东 种 机 制 来 确 
定 一 个 词 系 什么 时 候 组 成 一 个 关键 字 ， 什 么 时 候 组 成 一 个 标识 符 。 如 果 
将 关键 字 作 为 保留 字 ， 也 就 是 说 ， 如 果 它 们 不 能 被 用 作 标 识 符 ， 这 个 问 
题 相 对 容易 解决 。 此 时 ， 只 有 当 一 个 字符 串 不 是 关键 字 时 它 才能 组 成 一 


个 标识 符 。 


本 节 中 的 词法 分 析 器 使 用 一 个 表 来 保存 字符 串 ， 从 而 解决 了 如 下 两 


个 问题 : 


。 单一 表示 。 一 个 字符 串 表 可 以 将 编译 器 的 其 余部 分 和 表 中 字符 串 的 
具体 表示 隔离 开 ， 因 为 编译 器 后 面 的 步 又 可 以 只 使 用 指向 表 中 字符 
串 的 指针 或 引用 。 操 作 引 用 要 比 操作 字符 串 本 号 更 加 高 效 。 

保留 字 。 要 实现 保留 字 ， 可 以 在 初始 化 时 在 字符 串 表 中 加 入 保留 的 
字符 串 以 及 它们 对 应 的 词法 单元 。 当 词法 分 析 器 读 到 一 个 可 以 组 成 
标识 符 的 字符 串 或 词素 时 ， 它 首先 检查 这 个 字符 串 表 中 是 否 有 这 个 
词 率 。 如 是 ， 它 就 返回 表 中 的 词法 单元 ， 否 则 返回 带 有 终结 符号 id 
的 词法 单元 。 


在 Java 中 ， 使 用 类 Hashtable 可 以 将 一 个 字符 串 表 实现 为 一 张 散 列 
表 。 下 面 的 声明 


Hashtable words = new Hashtable():; 


将 words 初 始 化 为 一 个 将 键 映射 到 值 的 默认 散 列 表 。 我 们 将 使 用 它 来 实 
现 从 词素 到 词法 单元 的 映射 。 图 2-31 中 的 伪 代 码 使 用 get 操 作 来 查找 保留 
字 。 这 个 伪 代 码 从 输入 中 读 取 一 个 以 字母 开头 、 由 字母 和 数位 组 成 的 字 
符 串 s。 我 们 假定 读 取 的 s 尽 可 能 地 长 ， 即 只 要 词法 分 析 器 遇 到 字母 或 数 
位 ， 它 束 不 断 从 输入 中 读 取 字 符 。 当 它 过 到 的 不 是 字母 或 数位 ， 比 如 它 
遇 到 了 空 昌 人 符 ， 已 读 取 的 词素 束 倍 复制 到 缓冲 区 b 中 。 如 末 字 人 符 串 表 中 
己 经 有 一 个 s 的 条 目 ， 它 就 返回 由 words.get 得 到 的 词法 单元 。 这 里 s 可 能 
是 一 个 关键 字 ， 在 表 words 初 始 化 的 时 候 这 个 s 就 已 经 在 表 中 了 ; 它 也 可 
能 是 一 个 之 前 被 加 入 到 表 中 的 标识 待 。 如 宁 不 存在 s 对 应 的 条 目 ， 那 么 
由 id 和 属性 值 s 组 成 的 词法 单元 将 被 加 入 到 字符 串 表 中 ， 并 被 返回 。 




















if ( peek 存放 了 一 个 字母 ) { 
将 字母 或 数位 读 和 一 个 缓冲 区 已 
s 二 5 中 的 字符 形成 的 字符 串 ; 
w 二 words.get(s) 返 回 的 词法 单元 ; 
if( WwW 不 是 null ) return ?WU 


else { 


将 键 - 值 对 (s，(id, s)) 加 入 到 words; 
return 词法 单元 (id，s); 





图 2-31 区 分 关键 字 和 标识 符 
2.6.5 ”词法 分 析 融 


将 本 市 到 目前 为 止 给 出 的 伪 代 码 片 段 组 合 起 来 ， 就 可 以 得 到 一 个 返 
回 词法 单元 对 象 的 函数 scan。 如 下 所 示 : 





Token Scan( ){ 
跳 过 空白 符 ， 见 2 .6 , 工 节 ; 
处 理 数字 ， 见 2.6 .3 节 ; 
处 理 保 留 字 和 标识 符 ， 见 2 .6 .4 节 ; 
/* 如 果 我 们 运行 到 这 里 ， 就 将 预 读 字符 peek 作 为 一 个 词法 单元 */ 
Token t= new Token (peek) ; 
peek = 空白 符 /* 按 照 2.6.2 讨 论 的 方法 初始 化 */; 
return 七 ; 














本 节 的 其 余部 分 将 函数 scan 实 现 为 一 个 用 于 词法 分 析 的 Java 程 序 包 
的 一 部 分 。 这 个 叫做 lexer 的 包 中 包含 对 应 于 各 种 词法 单元 的 类 和 一 个 包 


含 国 数 scan 的 类 Lexer。 


图 2-32 中 显示 了 对 应 于 各 个 词法 单元 的 类 及 它们 的 字段 ， 但 图 中 没 
有 给 出 它们 的 方法 。 类 Token 有 一 个 tag 字 段 ， 它 用 于 做 出 语法 分 析 决 








定 。 子 类 Num 增 加 了 一 个 用 于 存放 整数 值 的 字段 value; 子 类 word 增 加 了 
一 个 字段 lexeme， 用 于 保存 关键 字 和 标识 符 的 词 桑 。 


类 Token 
int tag 





类 Num 类 Word 


tring leveme | 


图 2-32 类 Token 以 及 子 类 Num 和 Work 


每 个 类 都 在 以 它 的 名 字 命 名 的 文件 中 。Token 类 的 文件 内 容 如 下 : 








1) package lexer; // 文件 Token.java 
2) public class Token { 

3) public final int tag; 

4) public Token(int t) { tag = t; } 

5) } 


第 一 行 指明 了 lexer 包 。 第 3 行 声 明了 字段 tag 为 final 的 ， 即 它 一 旦 被 赋 
i 第 4 行 上 的 构造 函数 Token 用 于 创建 词法 单元 对 象 ， 比 
0 


new Token('+') 


创建 了 Token 类 的 一 个 新 对 象 ， 并 且 把 它 的 tag 字 段 初 始 化 为 “+” 的 整数 
表示 。【〔 为 简洁 起 见 ， 我 们 省 略 了 常用 的 方法 tostring。 该 方法 将 返回 
一 个 适 于 打印 的 字符 串 。) 


在 伪 代 码 中 使 用 诸如 num、id 这 样 的 终结 符号 的 地 方 ，Java 代 人 码 中 
使 用 整 型 常量 表示 。 类 Tag 实 现 了 这 些 常 量 : 


1) package lexer; // 文件 Tag.java 

2) public class Tag { 

3) public final static int 

4) NUM = 256, ID = 257, TRUE = 258, FALSE = 259; 


除了 值 为 整数 的 字段 NuM 和 ID 外 ， 这 个 类 还 定义 了 两 个 字段 TRUE 和 
FALSE 以 备 后 用 ， 它 们 将 用 于 演示 如 何 处 理 保 留 的 关键 字 。 台 


Tag 类 中 的 字段 是 public 的 ， 因 此 它们 可 以 在 包 的 外 面 使 用 。 它 们 
同时 也 是 static 的 ， 因 此 这 些 字 段 只 能 有 一 个 实例 ， 或 者 说 拷贝 。 这 些 
字段 是 final 的 ， 因 此 它们 只 能 被 赋值 一 次 。 事 实 上 ， 这 些 常量 就 代表 
常量 。 在 C 语 言 中 ， 可 以 使 用 define 语 句 来 获得 类 似 的 效果 。 这 些 
define 语 句 使 得 NuM 这 样 的 名 字 可 以 被 当 作 符号 常量 使 用 ， 例 如 : 


#define NUM 256 








在 伪 代 人 码 引 用 终结 符号 num 和 id 的 地 方 ，Java 代 人 码 引 用 的 是 Tag .NUM 
和 Tag.ID。 唯 一 的 要 求 是 Tag.NUM 和 Tag .ID 必须 被 初始 化 为 互 不 相同 的 
电 i ( 比 
He+? 或 er") 的 常量 。 


类 Num 和 word 显 示 在 图 2-33 中 。 类 Num 通 过 在 第 3 行 声 明 一 个 整数 字段 
value 而 扩展 了 Token。 第 4 行 的 构造 函数 Num 调 用 了 super (Tag.NUM) ， 访 
函数 把 其 父 类 Token 的 tag 字 段 设 定 为 Tag .NUM。 


package Lexer; // 文 件 Num.java 
public class Num extends Token { 

public final int Value ; 

public Num(int v) { super(Tag.NUM); value = vi } 
} 


package lexer; // 文件 Word.java 
public class Word extends Token { 
public final String lexeme; 
public Word(int t, String s) { 
super(t); lexeme = new String(s); 


起 








AAA Na NI Sa Sas Se a 


~ 加 负 必 oo 怕 睛 


} 


图 2-33 ”Token 的 子 类 Num 和 word 


类 word 既 可 用 于 保留 字 ， 也 可 用 于 标识 符 ， 因 此 第 4 行 上 的 构造 函 
数 word 需 要 两 个 参数 : 一 个 词素 和 一 个 与 tag 对 应 的 整数 值 。 一 个 用 于 
保留 字 true 的 对 象 可 以 通过 以 下 语句 创建 : 


new Word(Tag.TRUE，"true") 


这 个 语句 创建 了 一 个 新 对 象 ， 该 对 象 的 tag 字 段 被 设 为 Tag .TRUE，lexeme 
字段 被 设 为 字符 串 “true”。 


用 于 词法 分 析 的 类 Lexer 显 示 在 图 2-34 和 图 2-35 中 。 第 4 行 上 的 整 型 
0 于 对 输入 行 计数 ， 第 5 行 上 的 字符 变量 peek 用 于 存放 下 一 个 
洽 入 字符 。 


保留 字 在 第 6 行 到 第 11 行 处 理 。 第 6 行 声 明了 表 words。 第 7 行 上 的 畏 
助 函数 reserve 将 一 个 字符 串 - 字 对 放 入 这 个 表 中 。 构 造 函 数 Lexer 中 的 第 
9 行 和 第 10 行 初始 化 这 个 表 。 它 们 使 用 构造 函数 word 来 创建 字 对 象 ， 这 
些 对 象 被 传递 到 辅助 函数 reserve。 因 此 ， 在 第 一 次 调用 scan 之 前 ， 这 
个 表 被 初始 化 ， 并 且 预 先 加 入 了 保留 字 *true” 和 “false”。 


在 图 2-34 和 图 2-35 中 ，scan 的 代码 实现 了 本 市 中 的 各 个 伪 代 人 码 片 
段 。 从 第 13 行 到 第 17 行 的 for 语 句 跳 过 了 空格 、 制 表 符 和 换行 符 。 当 peek 
的 值 不 是 空白 符 时 ， 控 制 流离 开 for 循 环 。 





package lexer; // 文件 Lerer.java 
import java.io.*; import java.util.*; 
public class Lexer { 

public int line = 1,; 

private char peek = ” ); 

private Hashtable words = new Hashtable(); 

void reserve(Word t) { words.put(t.lexeme, t); } 

public Lexer() { 

reserVe( new Word(Tag.TRUE, "true") ); 


心 CD 


reserve(l new Word(Tag.FALSE, "false") ); 
四 
public Token scan() throws IOEXxception { 
for( ; ; peek = (char)System.in.read() ) { 
if( peek == ) ) || peek == ’\t’ ) continue; 
else if( peek == ’\n’ ) line = line + 1; 
else break; 


} 
谍 续 见 图 2-35*/ 





图 2-34 词法 分 析 器 的 代码 (第 1 部 分 ) 


if( Character.isDigit(peek) ) { 
intV= 0; 
do { 
V = 10*V + Character.digit(peek, 10); 
peek = (char)System.in.read() ; 
} while( Character.isDigit(peek) ); 
return new Num(v); 
} 
if( Character.isLetter(peek) ) { 
StringBuffer b = new StringBuffer(); 
do 荆 
b.append (peek); 
peek = (char)System.in.read(); 
} while( Character.isLetterOrDigit (peek) ); 
String s = b.toString(); 
Word w = (Word)words.get(s); 
if( w != null ) return w; 
Ww = new Word(Tag.ID，s) ; 
Words .put(s，V) ; 
return vw; 
Token t = new Token(peek); 
peek = ”);; 
return t; 





图 2-35 ”词法 分 析 器 的 代码 (第 2 部 分 ) 


第 18 行 到 第 25 行 的 代码 读 取 一 个 数位 序列 。 函 数 ispigit 来 自 于 Java 
的 内 置 类 character。 它 在 第 18 行 上 用 于 检查 peek 是 否 为 一 个 数位 。 如 
是 ， 第 19 行 到 第 24 行 的 代码 就 会 累积 计算 输入 中 的 数位 序列 对 应 的 整数 
值 ， 然 后 返回 一 个 新 的 Num 对 象 。 


第 26 行 到 第 38 行 分 析 了 保留 字 和 标识 符 。 关 键 字 true 和 false 已 经 在 
第 9 行 和 第 10 行 被 保留 了 。 因 此 ， 如 果 字 符 串 s 不 是 保留 字 ， 则 程序 就 会 
执行 第 35 行 ， 此 时 s 一 定 是 某 个 标识 符 的 词素 。 因 此 第 35 行 返回 一 个 新 
的 word 对 象 ， 该 对 象 的 lexeme 字 段 被 设 为 s，tag 字 段 被 设 为 Tag.ID。 最 
后 ， 第 39 行 到 第 41 行 将 当前 字符 作为 一 个 词法 单元 返回 ， 并 把 peek 设 为 
一 个 空格 。 当 下 一 次 调用 scan 时 ， 这 个 空格 会 被 删除 。 








2.6.6 2.6 节 的 练习 
练习 2.6.1: 扩展 2.6.5 节 中 的 词法 分 析 器 以 消除 注释 。 注 释 的 定义 如 


1) 以 /开始 的 注释 ， 包 括 从 它 开 始 到 这 一 行 的 结尾 的 所 有 字符 。 


2) 以 开始 的 注释 ， 包 括 从 它 到 后 面 第 一 次 出 现 的 字符 友 列 */ 之 间 
的 所 有 字符 。 


练习 2.6.2， 扩展 2.6.5 节 中 的 词法 分 析 器 ， 使 它 能 够 识别 关系 运算 符 


<、 < 三 、 一 一 、 ! 一 、 > 三 、 >。 


练习 2.6.3: 扩展 2.6.5 节 中 的 词法 分 析 器 ， 使 它 能 够 识别 浮 点 数 ， 比 
如 2.、3.14 和 .5 等 。 


27 符号 家 


符号 表 (symbol table〉 是 一 种 供 编 译 器 用 于 保存 有 关 源 程序 构造 的 
各 种 信息 的 数据 结构 。 这 些 信息 在 编译 器 的 分 析 阶 段 被 逐步 收集 并 放 入 
符号 表 ， 它 们 在 综合 阶段 用 于 生成 目标 代码 。 符 号 表 的 每 个 条 目 中 包含 
与 一 个 标识 符 相 关 的 信息 ， 比 如 它 的 字符 串 (或 者 词素 ) 、 它 的 类 型 、 
它 的 存储 位 置 和 其 他 相关 信息 。 符 号 表 通 常 需要 支持 同一 标识 符 在 一 个 
程序 中 的 多 重 声 明 。 


从 1.6.1 节 介绍 的 内 容 可 知 ， 一 个 声明 的 作用 域 是 指 该 声明 起 作用 的 
那 一 部 分 程序 。 我 们 将 为 每 个 作用 域 建立 一 个 单独 的 符号 表 来 实现 作用 
域 。 每 个 带 有 声明 的 程序 块 生 都 会 有 自己 的 符号 表 ， 这 个 块 中 的 每 个 声 
明 都 在 此 符号 表 中 有 一 个 对 应 的 条 目 。 这 种 方法 对 其 他 能 够 设立 作用 域 
的 程序 设计 语言 构造 同样 有 效 。 例 如 ， 每 个 类 也 可 以 拥有 自己 的 符号 
表 ， 它 的 每 个 域 和 方法 都 在 此 表 中 有 一 个 对 应 的 条 目 。 


本 蔬 包 括 一 个 符号 表 模 块 ， 它 可 以 和 本 章 中 的 Java 翻 译 器 代码 片段 
一 起 使 用 。 当 我 们 在 附录 A 中 将 这 个 翻译 器 集成 到 一 起 时 可 以 直接 使 用 
这 个 模块 。 同 时 ， 为 了 简化 问题 ， 本 市 的 主要 例子 古 一 个 被 简化 了 的 语 
言 ， 它 只 包含 与 符 写 表 相关 的 关键 构造 ， 比 如 块 、 声 明 、 因 子 等 。 所 有 
其 他 的 语句 和 表达 式 构造 都 被 忽略 了， 这 使 得 我 们 可 以 重点 关注 符号 表 
的 操作 。 一 个 程序 由 多 个 块 组 成 ， 每 个 块 包含 可 选 的 声明 和 由 单个 标识 
符 组 成 的 语句 。 每 个 这 样 的 语句 都 表示 对 相应 标识 符 的 一 次 使 用 。 下 面 
征 这 个 语言 的 一 个 例子 程序 : 
























































{ int x; char y; { bool y; x; y; } x; y; } (2.7) 


1.6.3 节 中 块 结构 的 例子 处 理 了 名 字 的 定义 和 使 用 。 输 入 《〈2.7) 仅仅 由 
名 字 的 定义 和 使 用 组 成 。 


我 们 将 要 完成 的 任务 是 打印 出 一 个 修改 过 的 程序 ， 程 序 中 的 声明 部 
分 已 经 被 删除 ， 而 每 个 “语句 ?中 的 标识 符 之 后 都 跟 痢 一 个 冒号 和 该 标识 
符 的 类 型 。 


| 


谁 来 创建 符号 表 条 目 ? 


符号 表 条 目 是 在 分 析 阶 段 由 词法 分 析 器 、 语 法 分 析 器 和 语义 分 析 
器 创建 并 使 用 的 。 在 本 章 中 ， 我 们 让 语法 分 析 器 来 创建 这 些 条 目 。 因 
为 语法 分 析 器 知道 一 个 程序 的 语法 结构 ， 因 此 相对 于 词法 分 析 器 而 
Ba 
9 不 同 声明 。 


在 有 些 情况 下 ， 词 法 分 析 器 可 以 在 它 碰 到 组 成 一 个 词素 的 字符 串 
时 立刻 建立 一 个 符号 表 条 目 。 但 是 在 更 多 的 情况 下 ， 词 法 分 析 器 只 能 
问 语法 分 析 费 返回 一 个 词法 单元 ， 比 如 id， 以 及 指向 这 个 词素 的 指 
针 。 只 有 语法 分 析 器 才能 够 决定 是 使 用 之 前 已 创建 的 符 写 表 条 目 ， 还 
征 为 这 个 标识 符 创 建 一 个 新 条 目 。 

















罗 池 在 处 理 上 面 的 输入 (2.7) 时 ， 目 标 是 生成 


{ { xrint;y yzbool;y } zx:ints ychars } 


第 一 个 x 和 y 来 自 输入 (2.7) 的 内 层 块 。 由 于 x 的 使 用 指 癌 外 层 块 中 x 的 声 
明 ， 因 此 第 一 个 x 后 面 跟 的 是 int， 即 该 声明 中 的 类 型 。 内 层 块 中 对 y 的 使 
用 指向 同一 个 块 中 的 声明 ， 因 此 具有 布尔 类 型 。 我 们 同时 看 到 ， 外 层 块 
中 x 和 y 的 使 用 的 类 型 分 别 为 整 型 和 字符 型 ， 也 就 是 外 层 块 中 声明 所 指定 


的 类 型 。 





2.7.1 为 每 个 作用 域 设置 一 个 符号 表 





术语 “标识 符 x 的 作用 域 ”* 实 际 上 指 的 是 x 的 茶 个 声明 的 作用 域 。 术 语 
作用 域 (scope) 本 里 是 指 一 个 或 多 个 声明 起 作用 的 程序 部 分 。 

作用 域 是 非常 重要 的 ， 因 为 在 程序 的 不 同 部 分 ， 可 能 会 出 于 不 同 的 
目的 而 多 次 声明 相同 的 标识 符 。 像 x 和 :i 这 样 常 见 的 名 字 会 被 重复 使 用 。 
再 例如 ， 子 类 可 以 重新 声明 一 个 方法 名 字 以 履 兰 父 类 中 的 相应 方法 。 


如 宁 程 序 其 可 以 和 能 套 ， 那 么 同一 个 标识 符 的 多 次 声明 就 可 能 出 现在 





和 


block — '{' decls stmts '}’ 


(我 们 对 这 个 语法 中 的 花 括 号 使 用 了 引 写 ， 这 么 做 的 目的 是 将 它们 和 用 
于 语义 动作 的 花 括 号 区 分 开 来 。) 在 图 2-38 给 出 的 文法 中 ，decls 生 成 一 
个 可 选 的 声明 序列 ，stmts 生 成 一 个 可 选 的 语句 序列 。 更 进一步 ， 一 条 语 
句 可 以 是 一 个 程序 块 ， 所 以 我 们 的 语言 文 持 骨 套 的 语句 块 。 而 标识 符 可 
以 在 这 些 块 中 重新 声明 。 





块 的 符号 表 的 优化 


块 的 符号 表 的 实现 可 以 利用 作用 域 的 最 近 贩 僚 规 则 。 髓 套 的 结构 
确保 可 应 用 的 符号 表 形 成 一 个 栈 。 在 栈 的 顶部 是 当前 块 的 符号 表 。 栈 
中 这 个 表 的 下 方 是 包含 这 个 块 的 各 个 块 的 符号 表 。 因 此 ， 符 号 表 可 以 
按照 类 似 于 栈 的 方式 来 分 配 和 释放 。 





有 些 编译 器 维 护 了 一 个 散 列 表 来 存放 可 访问 的 符 写 表 条 目 。 也 残 
是 说 ， 存 放 那 些 没有 被 内 内 块 中 的 茶 个 声明 掩盖 起 来 的 条 目 。 这 样 的 
散 列 表 实际 上 文 持 常量 时 间 的 查询 ， 但 是 在 进入 和 离开 块 时 需要 插入 
和 删除 相应 的 条 目 。 在 从 一 个 块 B 离 开 时 ， 编 译 如 必 须 撤销 所 有 因为 
B 中 的 声明 而 对 此 散 列 表 作 出 的 修改 。 它 可 以 在 处 理 B 的 时 候 维护 一 
个 辅助 的 栈 来 跟踪 对 这 个 散 列 表 的 所 做 的 修改 。 











语句 块 的 最 近 座 套 (mostrclosely) 规则 是 说 ， 一 个 标识 符 x 在 最 近 
的 x 声明 的 作用 域 中 。 也 就 是 说 ， 从 x 出 现 的 块 开始 ， 从 内 癌 外 检查 各 个 
块 时 找到 的 第 一 个 对 x 的 声明 。 


下 列 伪 代码 用 下 标 来 区 分 对 同一 标识 符 的 不 同 声明 : 











1) { int Xx1; Int yi; 
2) { int w>; bool y,; int 72,; 


4) } 
6) } 














下 标 并 不 是 标识 符 的 一 部 分 ， 它 实际 上 有 是 该 标识 符 对 应 的 声明 的 行 号 。 
因此 ，x 的 所 有 出 现 都 位 于 第 1 行 上 声明 的 作用 域 中 。 第 3 行 上 出 现 的 y 位 
于 第 2 行 上 y 的 声明 的 作用 域 中 ， 因 为 y 在 内 层 块 中 被 再 次 声明 了 。 然 
而 ， 第 5 行 上 出 现 的 y 位 于 第 1 行 上 y 的 声明 的 作用 域 中 。 


假设 第 5 行 上 w 的 出 现 位 于 这 个 程序 片段 之 外 茶 个 w 的 声明 的 作用 域 
中 ， 它 的 下 标 表示 一 个 全 局 的 或 者 位 于 这 个 块 之 外 的 声明 。 


最 后 ，z 在 最 内 层 的 块 中 声明 并 使 用 。 它 不 能 在 第 5 行 上 使 用 ， 因 为 
这 个 内 购 的 声明 只 能 作用 于 最 内 层 的 块 。 


实现 语句 块 的 最 近 磐 套 规 则 时 ， 我 们 可 以 将 符号 表 链 接 起 来 ， 也 就 
古 使 得 内 拣 语句 块 的 符号 表 指 同 外 围 语句 块 的 符号 表 。 


图 2-36 显 示 了 对 应 于 例 2.15 中 伪 代 码 的 符号 表 。B1 对 应 于 从 第 
1 行 开始 的 语句 块 ，Bs 对 应 着 从 第 2 行 开始 的 语句 块 。 图 的 顶端 是 符号 表 
Bo， 它 记录 了 全 局 的 或 由 语言 提供 的 默认 声明 。 在 我 们 分 析 第 2 行 至 第 4 
行 时 ， 环 境 是 由 一 个 指向 最 下 层 的 符号 表 〈 即 B> 的 符号 表 ) 的 指针 表示 
的 。 当 我 们 分 析 第 5 行 时 ，B, 的 符号 表 变 得 不 可 访问 ， 环 境 指 针 转 而 指 
向 Bi 的 符号 表 ， 此 时 我 们 可 以 访问 上 一 层 的 全 局 符号 表 Bo， 但 不 能 访问 
Bs 的 符号 表 。 











图 2-36 ”对 应 于 例 2. 15 的 符号 表 链 


图 2-37 中 是 链接 符号 表 的 Java 实 现 。 它 定义 了 一 个 类 Env 〈 环 
境 “environment” 的 缩写 ) 团 。 类 Env 支 持 三 种 操作 : 





Package symbols ; // 文件 Bnv.java 
import java.util.*; 
public class Env { 

private Hashtable table; 

protected Env prev; 


public Env(Env p) { 


table = new Hashtable(); prev = p; 
} 


public void put(String s, Symbol sym) { 
table.put(s, sym); 
} 


public Symbol get(String s) + 
for( Env e = this; e != null; e = e.prev ) { 
Symbol found = (Symbol) (e.table.get(s)); 
if( found != null ) return found; 


} 


return null; 





图 2-37 类 Env 实 现 了 链接 符号 表 


。 创建 一 个 新 符号 表 。 图 2-37 中 第 6 行 至 第 8 行 所 示 的 构造 函数 

Env (p) 创建 一 个 Env 对 象 ， 该 对 象 包含 一 个 名 为 table 的 散 列 表 。 

这 个 对 象 的 字段 prev 被 设置 为 参数 p， 而 这 个 参数 的 值 是 一 个 环 

境 ， 因 此 这 个 对 象 被 链接 到 环境 。 虽 然 形 成 链表 的 是 Env 对 象 ， 但 

是 将 它们 说 成 是 链接 的 符号 表 比 较 方 便 。 

在 当前 表 中 加 入 一 个 新 的 条 目 。 散 列表 保存 了 键 - 值 对 ， 其 中 

= 键 〈key) 是 一 个 字符 串 ， 也 可 以 说 是 一 个 指向 字符 串 的 引 
ee 


sm 值 (value) 是 一 个 Symbol 类 的 条 目 。 第 9 行 到 第 11 行 的 代码 不 
需要 知道 一 个 条 目的 内 部 结构 。 也 束 是 说 ， 这 个 代码 是 独立 于 
symbol 类 的 字段 和 方法 的 。 

得 到 一 个 标识 符 的 条 目 。 它 从 当前 块 的 符号 表 开 始 搜索 链接 符号 
ee 
XNUl11。 


因为 会 有 多 个 语句 块 肉 套 在 同一 外 围 语句 块 中 ， 所 以 将 这 些 符号 表 


链接 起 来 就 可 以 形成 一 个 树 形 结构 。 图 2-36 中 的 虚线 提醒 我 们 链接 的 符 
号 表 可 以 形成 一 株 树 。 








2.7.2 ”符号 表 的 使 用 


从 效果 看 ， 一 个 符号 表 的 作用 是 将 信息 从 声明 的 地 方 传递 到 实际 使 
用 的 地 方 。 当 分 析 标 识 符 x 的 声明 时 ， 一 个 语义 动作 将 有 关 x 的 信息 < 放 
入 "符号 表 中 。 然 后 ， 一 个 像 factor -id 这 样 的 产生 式 的 相关 语义 动作 从 
符号 表 中 “取出 ”这 个 标识 符 的 信息 。 因 为 对 一 个 表达 式 E1 op E (其 中 
op 代表 一 般 的 运算 符 ) 的 翻译 只 依赖 于 对 E; 和 E2 的 翻译 ， 不 直接 依赖 于 
符号 表 ， 所 以 我 们 可 以 加 入 任意 数量 的 运算 符 ， 而 不 会 影响 从 声明 通过 
符号 表 到 达 使 用 地 点 的 基本 信息 流 。 


图 2-38 中 的 翻译 方案 说 明了 如 何 使 用 类 Env。 这 个 翻译 方案 主 
委 乞 谍 作 用 域 、 声 明和 使 用 。 它 实现 了 例 2.14 中 描述 的 翻译 。 如 前 面 描 
述 的 ， 在 处 理 输入 








{ int x; char y; { bool y; x; y; } x; y; } 
时 ， 这 个 翻译 方案 过 滤 掉 了 各 个 声明 ， 并 生成 
{ { x:int; y:bool; } x:int; y:char; } 


请 注意 图 2-38 中 各 个 产生 式 的 体 都 已 经 对 齐 ， 因 此 所 有 的 文法 符号 
出 现在 同一 列 上 ， 并 且 所 有 的 语义 动作 都 出 现在 第 二 列 上 。 结 末 ， 一 个 
产生 式 体 的 各 个 组 成 部 分 常常 分 开 出 现在 多 行 上 。 


program 一 { top = null; } 


block { saved = top; 
top = new Env(top); 
print("{ ");} 
decls stmts'} {top= saved; 
print("} ");} 


decls decl 


€ 


type id ; {s= new 9ympol; 
s.type = type.lexeme; 
top.put(id.lereme, s); } 


stmts stmt 
€ 


block 
factor ; { print(™; ™);} 


id { s= top.get(id.lereme); 
print(id.lezeme); 
print(":"); 
print(s.type);} 





图 2-38 使 用 符号 表 翻 译 带 有 语句 块 的 语言 


现在 考虑 语义 动作 。 这 个 翻译 方案 在 进入 和 离开 块 的 时 候 将 分 别 创 
建 和 释放 符号 表 。 变 量 top 表 示 一 个 符号 表 链 的 顶部 的 顶层 符号 表 。 这 
个 翻译 方案 的 基础 文法 的 第 一 个 产生 式 是 program -block。 在 block 之 前 
的 语义 动作 将 top 初 始 化 为 null， 即 不 包含 任何 条 目 。 


第 二 个 产生 式 block -> '*{decls stmts'}' 中 包含 了 进入 和 离开 块 时 的 
语义 动作 。 在 进入 块 时 ， 在 decls 之 前 ， 一 个 语义 动作 使 用 局 部 变量 
saved 保 存 了 对 当前 符号 表 的 引用 。 这 个 产生 式 的 每 次 使 用 都 有 一 个 单 
独 的 局 部 变量 saved， 这 个 变量 和 这 个 产生 式 的 其 他 使 用 中 的 局 部 变量 
都 不 同 。 在 一 个 递归 下 降 语法 分 析 器 中 ，saved 可 以 是 block 对 应 的 过 程 
ee 
To 二 














top = new Env (top) ; 


将 变量 top 设 置 为 刚刚 创建 的 新 符号 表 。 这 个 新 符号 表 被 链接 到 进入 这 
个 块 之 前 一 刻 top 的 原 值 。 变 量 top 是 类 Env 的 一 个 对 象 ， 构 造 函 数 Env 的 
代码 显示 在 图 2-37 中 。 


在 离开 块 时 ， 小 之 后 的 一 个 语义 动作 将 top 的 值 恢复 为 进入 块 时 保存 
起 来 的 值 。 从 实际 效果 看 ， 这 个 表 形 成 了 一 个 栈 ， 将 top 恢 复 为 之 前 保 
存 的 值 实际 上 是 将 该 块 中 各 个 声明 的 结果 弹出 栈 吕 。 这 样 就 使 得 该 块 
中 的 声明 在 块 外 不 可 见 。 


声明 decl -type id 的 结果 是 创建 一 个 对 应 于 已 声明 标识 符 的 新 条 
目 。 我 们 假设 词法 单元 type 和 id 都 有 一 个 相关 的 属性 ， 分 别 是 被 声明 标 
识 符 的 类 型 和 词素 。 我 们 不 会 讨论 符号 对 象 s 的 所 有 字段 ， 但 是 我 们 假 
设 对 象 中 有 一 个 字段 type 给 出 该 符号 的 类 型 。 我 们 创建 一 个 新 的 符号 对 
象 Ss， 并 通过 代码 s.type = type.lexeme 为 它 赋 予 正确 的 类 型 。 整 个 条 目 使 
用 top.put (id.lexeme，s) 加 入 到 顶层 的 符号 表 中 。 


产生 式 factor -id 中 的 语义 动作 通过 符号 表 获 取 这 个 标识 符 的 条 目 。 
操作 get 从 top 开 始 搜 索 符 号 表 链 中 的 第 一 个 关于 此 标识 符 的 条 目 。 搜 索 
得 到 的 条 目 包 含有 关 该 标识 符 的 所 有 信息 ， 比 如 标识 符 的 类 型 。 





2.8 生成 中 间 代 码 


编译 器 的 前 端 构造 出 源 程序 的 中 间 表 示 ， 而 后 端 根据 这 个 中 间 表 示 
生成 目标 程序 。 在 这 一 市 里 ， 我 们 考虑 表达 式 和 语句 的 中 间 表 示 形 式 ， 
并 给 出 一 个 如 何 生 成 中 间 表 示 的 指导 性 的 例子 。 


2.8.1 ”两 种 中 间 表 示 形 式 


正如 我 们 在 2.1 节 【特别 是 在 图 2-4 中 ) 指出 的 ， 两 种 最 重要 的 中 间 
表示 形式 是 : 


。 树 型 结构 ， 包 括 语 法 分 析 树 和 《抽象 ) 语法 树 。 
。 线性 表示 形式 ， 特 别 是 “三 地 址 代码 ”。 


抽象 语法 树 〈 或 简称 语法 树 ) 曾 在 2.5.1 节 中 介绍 过 。 我 们 将 在 5.3.1 
节 中 更 加 正式 地 探讨 它 。 在 语法 分 析 过 程 中 ， 将 创建 抽象 语法 树 的 结 后 
来 表示 有 意义 的 程序 构造 。 随 着 分 析 的 进行 ， 信 息 以 与 结 点 相关 的 属性 
的 形式 被 添加 到 这 些 结 反 上 。 选 择 哪 些 属 性 要 依据 符 完 成 的 翻译 来 决 
十 。 


另 一 方面 ， 三 地 址 代码 是 一 个 由 基本 程序 步骤 《比如 将 两 个 值 的 相 
加 ) 组 成 的 序列 。 和 树 形 结构 不 一 样 ， 它 没有 层次 化 的 结构 。 正 如 我 们 
将 在 第 9 章 中 看 到 的 那样 ， 如 果 我 们 想 对 代码 做 出 显著 的 优化 ， 束 需要 
这 种 表示 形式 。 在 那 种 情况 下 ， 我 们 可 以 把 组 成 程序 的 很 长 的 三 地 址 语 
句 序 列 分 解 为 “基本 块 "”。 所 谓 基 本 块 就 是 一 个 总 是 逐个 顺序 执行 的 语句 
序列 ， 执 行 时 不 会 出 现 分 支 跳 转 。 


除了 创建 一 个 中 间 表 示 之 外 ， 编 译 器 前 端 还 会 检查 源 程 序 是 否 遵循 
源 语 言 的 语法 和 语义 规则 。 这 种 检查 称 为 静态 检查 (static check) ,，“ 角 
态 "一 般 是 指 “ 由 编译 器 完成 ”上 。 静 态 检查 确保 一 些 特定 类 型 的 程序 错 
误 ， 包 括 类 型 不 匹配 ， 能 在 编译 过 程 中 被 检测 并 报告 。 


编译 器 可 以 在 创建 抽象 语法 树 的 同时 生成 三 地 址 代码 序列 。 然 而 ， 


在 通常 情况 下 ， 编 译 器 实际 上 并 不 会 创建 出 存放 了 整 析 抽 象 语法 树 的 数 
所 结构 ， 它 仅仅 “ 假 疼 ?构造 了 一 棵 抽象 语法 树 ， 同 时 生成 三 地 址 代码 。 
编译 器 在 分 析 过 程 中 只 会 保存 将 用 于 语义 检查 或 其 他 目的 的 结 点 及 其 属 
性 ， 同 时 也 保存 了 用 于 语法 分 析 的 数据 结构 ， 而 不 会 保存 整 哥 抽 象 语法 
树 。 经 过 这 样 的 处 理 ， 构 造 三 地 址 代码 时 要 使 用 到 的 那 部 分 语法 树 在 需 
要 时 都 是 可 用 的 ， 一 旦 不 再 需要 束 会 锐 释 放 。 我 们 将 在 第 5 半 详 细 讨 论 
这 个 过 程 。 


2.8.2 ”语法 树 的 构造 


我 们 将 首先 给 出 一 个 可 以 创建 抽象 语法 树 的 翻译 方案 ， 然 后 在 2.8.4 
节 中 说 明 如 何 修改 这 个 翻译 方案 ， 使 得 它 可 以 在 构造 语法 树 的 同时 生成 
三 地 址 代码 ， 或 者 让 它 只 生成 三 地 址 代码 。 


回顾 一 下 2.5.1 市 ， 下 面 的 语法 树 
op 
El EF» 
表示 将 运算 符 op 应 用 于 El 和 E, 所 代表 的 子 表 达 式 而 得 到 的 表达 式 。 我 们 
可 以 为 任意 的 构造 创建 抽象 语法 树 ， 而 不 仅仅 为 表达 式 创 建 语法 树 。 每 


个 构造 用 一 个 结 点 表示 ， 其 子 结 点 代表 此 构造 中 具有 语义 含义 的 组 成 部 
分 。 比 如 ， 在 C 语 言 的 一 个 while 语 句 





while (expr) stmt 


中 ， 具 有 语义 含义 的 组 成 部 分 是 表达 式 expr 和 语句 stm 世 区 。 这 样 的 while 
语句 的 抽象 语法 树 结 点 有 一 个 运算 符 ， 我 们 称 为 while， 并 有 两 个 子 结 
点 一 一 分 别 是 expr 和 stmt 的 抽象 语法 树 。 


图 2-39 中 的 翻译 方案 为 一 个 有 代表 性 但 却 很 简单 的 由 表达 式 和 语句 
组 成 的 语言 构造 出 一 棵 语法 树 。 这 个 翻译 方案 中 的 所 有 非 终 结 符 都 有 一 
个 属性 n， 即 语法 树 的 一 个 结 点 。 这 些 结 点 被 实现 为 类 Node 的 对 象 。 





类 Node 有 两 个 直接 子 类 : 一 个 是 Expr， 代 表 各 种 表达 式 ， 另 一 个 是 
Stmt， 代 表 各 种 语句 。 每 一 种 语句 都 有 一 个 对 应 的 Stmt 的 子 类 。 比 如 ， 
运算 符 while 对 应 于 子 类 While。 一 个 对 应 于 运算 符 while， 子 结 点 为 x 和 y 
的 语法 树 结 点 可 以 由 如 下 伪 代 码 创 建 : 





new While (x, y) 


它 通 过 调用 构造 函数 While 创 建 了 类 While 的 一 个 对 象 ， 其 名 称 和 类 
名 相同 。 束 和 构造 冰 数 对 应 于 运算 符 一 样 ， 构 造 函 数 的 参数 对 应 于 抽象 
语法 中 的 运算 分 量 。 


当 我 们 研究 附录 A 中 的 详细 代码 时 ， 我 们 就 会 发 现 各 个 方法 在 这 个 
人 
小 部 分 。 

我 们 将 依次 考虑 图 2-39 中 的 每 一 条 产生 式 和 规则 。 首 先 ， 我 们 将 解 
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program 
block 
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stmt 
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factor 
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block 
'{" stmts 个 / 


stmtsi: stmt 
€ 


erpr ; 


if ( expr ) stmt1 
while ( ezpr ) stmti 


do stmt! while ( expr ); 


block 

rel = expr] 
rel 

rell < add 
rel! <= add 
add 


addl + term 
term 


term1 * factor 
factor 


( expr ) 
num 


{ return block.n; } 
{ block.n = stmts.n; } 


{ stmts.n = new Seq(stmtsi.n, stmt.n); } 
{ stmts.n = null; } 


{ stmt.n = new BEval(ezpr.n); } 
{ stmt.n = new JIf(ezrpr.n, stmti.n); } 
{ stmtn = new While (ezpr.n, stmti.n); } 


stmt.n = new Do (stmti.n, expr.n); } 
stmt.n = block.n; } 


erpr.n = new Assign(’=", rel.n, expr1.n); } 
erpr.n = rel.n; } 


reln = new Rel('<',reli.n, add.n); } 
rel.n = add.n; } 


{ 

{ 

{ 

{ 

{ rel = new Rel(’<',reli.n, add.n); } 

{ 

{ 

{ addn = new Op(’+', addi.n, term.n); } 
{ add.n = term.n; } 

{ term.n = new Op(’*',termi.n, factor.n); } 
{ term.n = factor.n; } 


{ factor.n = expr.n; } 
{ factor.n = new Num (num.value); } 





图 2-39 ”为 表达 式 和 语句 构造 抽象 语法 树 
语句 的 抽象 语法 树 


我 们 在 抽象 语法 中 为 每 一 种 语句 构造 定义 了 相应 的 运算 符 。 对 于 以 
关键 字 开 头 的 构造 ， 我 们 将 使 用 这 个 关键 字 作为 对 应 的 运算 符 。 因 此 ， 
我 们 把 while 作 为 while 语 句 的 运算 符 ， 而 把 do 作为 do-while 语 句 的 运算 
符 。 对 于 条 件 语句 ， 我 们 定义 了 两 个 运算 符 ifelse 和 证 ， 分 别 对 应 于 带 有 
和 不 带 有 else 部 分 的 站 语句 。 在 我 们 简单 的 示例 性 语言 中 ， 我 们 没有 使 
用 else， 所 以 仅 有 一 种 证 语句 。 增 加 else 会 在 语法 分 析 过 程 中 产生 一 些 问 
题 。 我 们 将 在 4.8.2 节 中 讨论 这 些 问题 。 


每 个 语句 运算 符 都 有 一 个 对 应 的 同名 的 类 ， 但 是 类 名 的 首 字 符 要 大 
写 。 比 如 ， 类 了 对 应 于 过。 此 外 ， 我 们 还 定义 了 子 类 Seq， 它 表示 一 个 语 











名 序列。 这 个 子 类 对 应 于 文法 中 的 非 终 结 符 号 stmts。 这 些 类 都 是 Stmt 的 
子 类 ， 而 Stmt 又 是 Node 的 子 类 。 


图 2-39 中 的 翻译 方案 说 明了 抽象 语法 树 络 点 的 构建 方法 。 一 个 典型 
的 用 于 if 语句 的 规则 如 下 : 








stmt 一 if (expr) stmti { stmtn = new If (expr.n, stmti.n) ; } 


if 语 句 中 具有 语义 含义 的 成 分 是 expr 和 stmti。 语 义 动作 将 结 点 stmt.n 
定义 为 子 类 If 的 一 个 新 对 象 。 我 们 没有 给 出 了 的 构造 函数 的 代码 。 它 创 
建 一 个 标号 为 十 ， 子 结 点 为 expr.n 和 stmti.n 的 新 结 点 。 


表达 式 语 句 不 以 某 个 关键 字 开 头 ， 所 以 我 们 定义 了 一 个 新 运算 
符 eval 及 类 Eval (其 中 Eval 是 Stmt 的 一 个 子 类 ) 表示 表达 式 语 句 。 相 关 
的 规则 如 下 : 





stmt expr; {stmt.n = new Eval (expr.n) ; } 
在 抽象 语法 树 中 表示 语句 块 
在 图 2-39 中 ， 男 一 个 语句 构造 是 由 一 系列 语句 组 成 的 语句 块 。 考 虑 
下 面 的 规则 : 
stmt 一 > block | simt.n = block.n; | 
block —> | stmts '}' 1 block.n = simts.n; | 
第 一 个 规则 说 明 当 一 个 语句 是 一 个 语句 块 时 ， 它 的 抽象 语法 树 和 这 个 语 


句 块 的 相同 ; 第 二 个 规则 说 明 非 终结 符号 block 对 应 的 抽象 语法 树 就 是 
该 块 中 的 语句 序列 对 应 的 语法 树 。 


为 简单 起 见 ， 图 2-39 中 的 语言 不 包含 声明 。 虽 然 在 附录 A 中 包含 声 
明 ， 但 我 们 将 看 到 一 个 语句 块 的 抽象 语法 树 仍 然 就 是 块 中 的 语句 序列 的 
抽象 语法 树 。 因 为 声明 中 的 信息 已 经 加 入 到 符号 表 中 ， 所 以 它们 不 需要 
出 现在 抽象 语法 树 中 。 因 此 ， 不 管 它 是 否 包含 声明 ， 语 句 块 在 中 间 代 码 
中 看 起 来 就 是 一 个 普通 的 语句 构造 。 


一 个 语句 序列 的 表示 方法 如 下 : 用 一 个 叶子 结 点 null 表示 一 个 空 语 











名 序列， 用 运算 符 seq 表 示 一 个 语句 序列 。 规 则 如 下 : 


stmts — stmts; stmt { stmts.n = new Seq (stmtsi.n, stmt.n) ; } 


人 在 图 2-40 中 ， 我 们 可 以 看 到 表示 一 个 语句 块 或 语句 列表 的 语法 
抽 的 一 部 分 。 列 表 中 有 两 个 语句 。 第 一 个 语句 是 一 个 if 语句 ， 第 二 个 语 
名 是 while 语 句 。 我 们 没有 显示 在 这 个 语句 列表 之 上 的 那 部 分 抽象 语法 
树 ， 并 且 将 各 棵 子 树 用 三 角形 表示 ， 包 括 这 个 语句 列表 中 对 应 于 站 语句 
Ue A 以 及 对 应 于 这 两 个 语句 的 子 语句 的 
语 Y 多 。 












一 个 表达 式 
的 抽象 i 





认 人 去 
吾 法 树 





图 2-40 ”由 一 个 if 语 句 和 一 个 while 语 名 组 成 的 语句 列表 的 语法 树 的 一 部 分 
表达 式 的 语法 树 


在 以 前 的 章节 中 ， 我 们 用 三 个 非 终结 符号 expr、term 和 factor 使 得 乘 
法 * 相 对 加 法 + 具有 较 高 的 优先 级 。 我 们 在 2.2.6 节 中 指出 ， 非 终结 符号 的 
数目 正好 比 表 达 式 中 优先 级 的 层 数 多 一 。 在 图 2-39 中 ， 我 们 增添 了 两 个 
同 优先 级 的 比较 运算 符 < 和 <=， 同 时 也 保留 了 + 和 *# 运 算 符 ， 故 我 们 增加 
了 一 个 新 的 非 终结 符号 add。 


抽象 语法 允许 我 们 将 “相似 的 ”运算 符 分 为 一 组 ， 以 减少 在 实现 表达 
式 时 需要 处 理 的 不 同情 况 和 需要 设计 的 子 类 。 在 本 章 中 ,“ 相 似 的 * 意 指 
运算 符 的 类 型 检查 规则 和 代码 生成 规则 相近 。 比 如 ， 运 算 符 + 和 * 通 常 分 
为 一 组 ， 因 为 它们 可 以 用 同一 种 方式 进行 处 理 一 一 它们 对 运算 分 量 类 型 
的 要 求 是 一 样 的 ， 且 它们 都 会 生成 一 个 将 一 个 运算 符 应 用 到 两 个 数值 之 
上 的 三 地 址 指令 。 一 般 来 说 ， 在 抽象 语法 中 对 运算 符 分 组 是 根据 编译 器 
后 期 处 理 的 需要 来 决定 的 。 图 2-41 中 的 表 插 述 了 儿 种 常见 Java 运 算 符 的 











具体 语法 和 抽象 语法 之 间 的 对 应 关系 。 


抽象 语法 
assign 
cond 
cond 
rel 


rel 


op 

op 

not 
unary minus 
[] access 





图 2-41 几 种 常见 Java 运 算 符 的 具体 语法 和 抽象 语法 


在 具体 语法 中 ， 几 乎 所 有 的 运算 符 都 是 左 结 合 的 ， 只 有 赋值 运算 符 
= 是 右 结合 的 。 同 一 行 中 的 运算 符 具 有 同样 的 优先 级 ， 也 就 是 说 == 和 ! 
= 具有 同样 的 优先 级 。 各 行 是 按照 优先 级 递增 的 方式 排列 的 ， 比 如 == 比 
&& 或 = 的 优先 级 更 局 。-unay 中 的 下 标 unary 用 于 区 分 单 目 减 写 《比如 -2 
中 的 符 写 〉 和 双 目 减 写 (比如 2-a 中 的 符号 ) 。 运 算 符 [表示 数组 访 
问 ， 例 如 a [i] 。 


图 中 “抽象 语法 ” 列 描述 了 运算 符 的 分 组 方法 。 赋 值 运算 符 = 所 在 的 
组 仪 包含 它 自 己 。 组 cond 包 含 了 条 件 布尔 运算 符 && 和 | 上 |。 组 rel 包 含 == 
和 < 所 在 行 中 的 各 个 关系 比较 运算 符 。 组 op 包含 诸如 + 和 *#* 这 样 的 算术 运 
算 符 。 单 日 减 、 逻 辑 非 和 数组 访问 运算 符 各 自 为 一 组 。 


图 2-41 中 具体 语法 和 抽象 语法 之 间 的 映射 天 系 可 以 通过 编写 翻译 方 
案 来 实现 。 图 2-39 中 的 非 终 结 符 写 expr、rel、add、term 和 factor 的 产生 
式 描述 了 一 些 运 算 符 的 具体 语法 。 这 些 运算 符 是 图 2-41 中 的 运算 符 的 一 
De 这 些 产 生 式 中 的 语义 动作 创建 出 相应 的 语法 树 结 点 。 比 
0， 规 见 





term — termi * factor { term.n = new Op (*’, termi.n, factor.n) ; } 





创建 了 类 Op 的 结 点 ， 这 个 类 实现 了 图 2-41 中 被 分 在 op 组 中 的 运算 符 。 构 
造 函 数 Op 的 参数 中 包含 了 一 个 '*'， 它 指明 了 实际 的 运算 符 。 它 的 参数 
还 包括 对 应 于 子 表达 式 的 结 点 termi.n 和 和 factor.n。 


2.8.3 ”静态 检查 





静态 检查 是 指 在 编译 过 程 中 完成 的 各 种 一 致 性 检查 。 这 些 检查 不 但 
可 以 确保 一 个 程序 被 顺利 地 编译 ， 而 且 还 能 在 程序 运行 之 前 发 现 编程 错 
误 。 静 态 检 查 包 括 : 


语法 检查 。 语 法 要 求 比 文法 中 的 要 求 的 更 多 。 例 如 下 面 的 这 些 约 

束 : 任何 作用 域内 同一 个 标识 符 最 多 只 能 声明 一 次 ， 一 个 break 语 

句 必 须 处 于 一 个 循环 或 switch 语 句 之 内 。 这 些 约束 都 是 语法 要 求 ， 

但 是 它们 并 没有 包括 在 用 于 语法 分 析 的 文法 中 。 

类 型 检查 。 一 种 语言 的 类 型 规则 确保 一 个 运算 符 或 函数 被 应 用 到 类 
型 和 数量 都 正确 的 运算 分 量 上 。 如 果 必 须要 进行 类 型 转换 ， 比 如 将 
一 个 浮 点 数 与 一 个 整数 相 加 时 ， 类 型 检查 器 就 会 在 语法 树 中 插入 一 
个 运算 符 来 表示 这 个 转换 。 下 面 我 们 将 使 用 常用 的 术语 “ 目 动 类 型 
转换 ”来 讨论 类 型 转换 的 问题 。 

左 值 和 右 值 

现在 我 们 考虑 一 些 简单 的 静态 检查 ， 它 们 可 以 在 源 程序 的 抽象 语法 
树 构 造 过 程 中 完成 。 一 般 来 说 ， 在 进行 复杂 的 静态 检查 时 ， 首 先 要 生成 
源 程 序 的 某 个 中 间 表 示 ， 然 后 再 分 析 这 个 中 间 表 示 。 


赋值 表达 式 左 部 和 右 部 的 标识 符 的 合 义 是 不 一 样 的 。 在 下 面 的 两 个 
赋值 语句 








1 


中 ， 表 达 式 的 右 部 摘 述 了 一 个 整数 值 ， 而 左 部 描述 的 是 用 来 存放 该 值 的 
存储 位 置 。 术 语 左 值 〈]-value) 和 右 值 〈r-value) 分 别 表示 可 以 出 现在 
赋值 表达 式 左 部 和 右 部 的 值 。 也 束 是 说 ， 右 值 是 我 们 通常 所 说 的 “ 值 ”， 
而 左 值 是 存储 位 置 。 


5 ; 
了 中 








静态 检查 要 确保 一 个 赋值 表达 式 的 左 部 表示 的 是 一 个 左 值 。 一 个 像 
i 这 样 的 标识 符 是 一 个 左 值 ， 像 a [2] 这 样 的 数组 访问 也 是 左 值 ， 但 2 这 
和 
是 和 大作 ， 


类 型 检查 


类 型 检查 确保 一 个 构造 的 类 型 符合 其 上 下 文 对 它 的 期 望 。 比 如 说 ， 
在 让 语句 


if (expr) stmt 
中 ， 期 望 表 达 式 expr 是 boolean 型 的 。 


类 型 检查 规则 按照 抽象 语法 中 运算 符 /运算 分 量 的 结构 进行 描述 。 
假设 运算 符 rel 表 示 关 系 运算 符 ， 如 <=。 那 么 运算 符 组 rel 的 类 型 规则 
是 : 它 的 两 个 运算 分 量 必须 具有 相同 的 类 型 ， 而 其 结果 为 布尔 类 型 。 用 
属性 type 来 表示 一 个 表达 式 的 类 型 ， 令 E 表 示 将 rel 应 用 于 Ei 和 E2 的 表达 
式 。 那 么 E 的 类 型 检查 可 以 在 创建 它 对 应 的 抽象 语法 树 的 结 点 时 进行 ， 
执行 如 下 所 示 的 代码 即 可 : 














if (Ei.type == E.type) E.type = boolean; 


else error; 


划 便 企 下 面 的 篇 况 下 ， 仿 可 必 过 用 将 实际 关公 和 期 洱 关 本 让 攻 配 的 居 
想 ; 











。 自动 类 型 转换 。 当 一 个 运算 分 量 的 类 型 被 目 动 转换 为 运算 符 所 期 望 
的 类 型 时 ， 就 发 生 了 自动 类 型 转换 (coercion) 。 在 一 个 像 2*3.14 
这 样 的 表达 式 中 ， 常 见 的 转换 是 将 整数 2 转换 为 一 个 等 值 的 浮 点 
数 2.0， 然 后 对 得 到 的 两 个 浮 点 运算 分 量 执行 相应 的 浮 点 运算 。 程 
序 设计 语言 的 定义 指明 了 人 允许 的 自动 类 型 转换 方式 。 比 如 ， 上 面 讨 
论 的 rel 的 实际 规则 可 能 是 这 样 的 ，E1.type 和 E,.type 可 以 被 转换 成 相 
同 的 类 型 。 如 果 是 那样 ， 把 一 个 整数 和 一 个 浮 点 数 比 较 就 是 合法 


的 。 
重 载 。Java 中 的 运算 符 + 应 用 于 整数 运算 分 量 时 表示 相 加 ， 而 应 用 
于 字符 串 型 运算 分 量 时 表示 连接 。 如 果 一 个 符号 在 不 同上 下 文中 有 




















不 同 的 含义 ， 那 么 我 们 说 这 个 符号 是 重 载 (overloading) 的 。 
此 ， 在 Java 中 + 是 重 载 的 。 我 们 可 以 通过 已 知 的 运算 分 量 类 型 和 结 
果 类 型 来 判断 一 个 重 载 的 运算 符 的 含义 。 比 如 ， 如 果 我 们 知道 x、y 
或 z 中 的 任意 一 个 是 字符 串 类 型 ， 那 么 表达 式 z=x+y 中 的 运算 符 + 的 
含义 就 是 连接 。 然 而 ， 如 果 我 们 还 知道 其 中 男 一 个 运算 分 量 是 整 型 
的 ， 那 么 我 们 就 找到 了 一 个 类 型 错误 ，+ 的 这 次 使 用 就 没有 意义 。 








2.8.4 三 地 址 码 


一 旦 抽象 语法 树 构 造 完 成 ， 我 们 就 可 以 计算 树 中 各 结 点 的 属性 值 并 
执行 各 结 扣 中 的 代码 片段 ， 进 行进 一 步 的 分 析 和 综合 。 我 们 将 说 明 如 何 
通过 遍历 语法 树 来 生成 三 地 址 代码 。 有 共 体 地 说 ， 我 们 将 显示 如 何 编写 一 
个 抽象 语法 树 的 函数 ， 并 且 同 时 生成 必要 的 三 地 址 代码 。 


三 地 址 指令 
三 地 址 代码 是 由 如 下 形式 的 指令 组 成 的 序列 








X=yopz 


其 中 x、y 和 z 可 以 是 名 字 、 常 量 或 由 编译 器 生成 的 临时 量 ， 而 op 表示 一 
个 运算 符 。 


数组 将 由 下 面 的 两 种 变 体 指令 来 处 理 : 

















X [yj =z 
X=y[Lzj 


前 者 将 z 的 值 保存 到 x [yj] 所 指示 的 位 置 上 ， 而 后 者 则 将 y Lzj 的 值 放 
到 位 置 x 上 。 


三 地 址 指令 将 被 顺序 执行 ， 但 是 当 遇 到 一 个 条 件 或 无 条 件 跳 转 指令 
时 ， 执 行 过 程 就 会 跳 转 。 我 们 选择 下 面 的 指令 来 控制 程序 流 : 





ifFalse TgotoL 如 果 Z 为 假 ， 下 一 步 执行 标号 为 L 的 指令 
ifTrue x gotoL 如果 7Z 为 真 ， 下 一 步 执行 标号 为 工 的 指令 
gotoL 下 一 步 执行 标号 为 L 的 指令 





在 一 个 指令 前 加 上 前 级 L: 残 表示 将 标 写 L 附 加 到 该 指令 。 同 一 指令 可 以 
同时 拥有 多 个 标号 。 


最 后 ， 我 们 还 需要 一 个 找 贝 值 的 指令 。 如 下 的 三 地 址 指令 将 y 的 值 


x=y 

语句 的 翻译 

通过 利用 跳 转 指令 实现 语句 内 部 的 控制 流 ， 我 们 就 可 以 将 语句 转换 
成 为 三 地 址 代码 。 图 2-42 的 代码 布局 说 明了 对 语句 和 f expr then stmt1 的 翻 
译 。 该 代码 布局 中 的 跳 转 指令 


ifFalse Z goto after 


对 ezpr 求 值 并 将 结 
村 存放 到 zx 中 的 代码 


ifFalse Z goto after 


stmti 的 代码 





图 2-42 if 语句 的 代码 布局 


将 在 expr 的 值 为 false 时 跳 过 语句 stmt1 对 应 的 翻译 结果 。 其 他 语句 的 翻译 
方法 是 类 似 的 : 我 们 将 使 用 一 些 跳 转 指 令 在 其 各 个 组 成 部 分 对 应 的 代码 
之 间 进 行 跳 转 。 





为 了 具体 说 明 ， 我 们 在 图 2-43 中 给 出 了 类 下 的 伪 代 码 。 类 Hf 是 类 Stmt 

的 一 个 子 类 ， 对 应 于 其 他 语句 的 类 也 是 Stmt 的 子 类 。Stmt 的 每 一 个 子 类 

7 都 有 一 个 构造 函数 及 一 个 为 此 类 语句 生成 三 地 址 代码 的 函 
gen 。 





class If extends 9trmt { 
五 TDr E; Stmt 9 ; 
public J (Bzrpr z, Stmt y) { BE = 7x; 5 = y; after = newlabel(); } 
public void gen() { 
Erzpr n. = E.rvalue(); 


emit( “ifFalse” + n.toString() + “ goto ” + afte”n); 
O.gen(); 
emit(after + “:”); 





图 2-43 ”类 1f 中 的 函数 gen 生 成 三 地 址 代码 


图 2-43 中 的 构造 函数 If 构 建 了 if 语 句 的 语法 树 结 点 。 它 有 两 个 参数 ， 
一 个 表达 式 结 点 x 和 一 个 语句 结 点 y。 它 们 被 分 别 存放 在 属性 E 和 S 中 。 同 
时 ， 这 个 构造 函数 调用 了 函数 newlable()， 给 属性 after 赋 予 一 个 唯一 的 新 
标号 。 这 个 标号 将 按照 图 2-42 所 示 的 布局 被 使 用 。 


一 旦 源 程 序 的 整个 抽象 语法 树 被 创建 完毕 ， 函 数 gen 在 此 抽象 语法 
树 的 根 结 点 处 被 调用 。 在 我 们 的 简单 语言 中 ， 一 个 程序 就 是 一 个 语句 
块 ， 所 以 这 柠 抽 象 语法 树 的 根 结 点 吏 代 表 这 个 语句 块 中 的 语句 序列 。 所 
有 的 语句 类 都 有 一 个 gen 函 数 。 


图 2-43 中 类 If 的 gen 函 数 的 伪 代 码 具 有 代表 性 。 它 调用 E.rvalueO 函 数 
来 翻译 表达 式 E〈 即 作为 if 语 句 的 组 成 部 分 的 布尔 值 表达 式 ) ， 并 保存 
E.rvalue0 返 回 的 结果 结 点 。 我 们 稍 后 会 讨论 表达 式 的 翻译 。 然 后 ，gen 
函数 发 生 一 个 条 件 跳 转 指令 ， 并 且 调 用 S$.gen(0) 来 翻译 子 语句 S。 


表达 式 的 翻译 

我 们 将 考虑 包含 二 目 运 算 符 op、 数组 访问 和 赋值 运算 ， 并 包含 常量 
及 标识 符 的 表达 式 ， 以 此 来 说 明 对 表达 式 的 翻译 。 为 了 简单 起 见 ， 我 们 
要 求 在 数组 访问 y [zj] 中 ，y 必 须 为 标识 符 H。 关 于 表达 式 的 中 间 代 码 
生成 的 详细 讨论 请 见 6.4 节 。 





我 们 将 采用 一 种 简单 的 方法 ， 为 一 个 表达 式 的 语法 树 中 的 每 个 运算 
符 结 点 都 生成 一 个 三 地 址 指令 。 不 需要 为 标识 符 和 第 量 生 成 任何 代码 ， 
因为 它们 可 以 作为 地 址 出 现在 指令 中 。 如 末 一 个 结 反 x 的 类 为 Expr， 其 
运算 符 为 op， 我 们 就 及 出 一 个 指令 来 计算 结 点 x 上 的 值 ， 并 将 此 值 存放 
到 一 个 由 编译 器 生成 的 “临时 ”名字 《比如 t) 中 。 因 此 ，i-j+k 会 被 翻译 
成 为 两 条 指令 





tlt=i-j 
t2 = ti+k 


在 处 理 数组 访问 及 赋值 运算 时 要 区 分 左 值 和 右 值 。 例 如 ， 对 于 
2*a [i] ， 可 以 通过 计算 a [i] 的 右 值 并 存放 在 一 个 临时 量 中 而 得 到 翻译 
结果 ， 如 下 所 示 : 


] 


tlt=a[i 
七 2 2 * t1 
但 是 ， 当 a [i] 出 现在 一 个 赋值 表达 式 的 左边 时 ， 我 们 不 能 简单 地 以 一 
个 临时 量 来 蔡 换 a [i] 。 


我 们 的 简单 方法 使 用 了 两 个 函数 lvalue 及 rvalue， 它 们 分 别 显示 在 图 
2-44 和 图 2-45 中 。 当 函数 rvalue 被 应 用 于 一 个 非 叶 子 结 点 x 时 ， 它 生成 一 
些 指 令 ， 这 些 指令 对 x 求 值 并 存放 到 一 个 临时 量 中 ， 然 后 该 函数 返回 一 
个 表示 此 临时 量 的 新 结 点 。 当 函数 lvalue 被 应 用 于 一 个 非 叶 子 结 点 x 时 ， 
它 也 会 生成 一 些 指令 ， 这 些 指令 计算 x 之 下 的 各 个 子 树 。 然 后 这 个 函数 
返回 代表 x 的 “地 址 ”的 新 结 点 。 


因为 函数 lvalue 要 处 理 的 情况 相对 较 少 ， 我 们 首先 对 它 进 行 描述 。 
当 将 它 应 用 于 一 个 结 点 x 时 ， 如 果 此 结 点 对 应 于 一 个 标识 符 ( 即 x 的 类 是 
Id) ， 那 么 它 直 接 返 回 x。 在 我 们 的 简单 语言 中 ， 除 此 之 外 只 存在 一 种 
情况 会 使 一 个 表达 式 拥 有 左 值 ， 即 结 点 x 代表 一 个 数组 访问 ， 比 如 
a [i] 。 在 这 种 情况 下 ， 结 点 x 形 如 Access (y，z) ， 其 中 类 Access 是 类 
Expr 的 子 类 ，y 表 示 被 访问 数组 的 名 字 ， 而 z 表 示 被 访问 元 素 在 该 数组 中 
的 偏 移 量 〈( 下 标 )。 在 图 2-44 所 示 的 伪 代 码 中 ， 函 数 lvalue 会 在 必要 时 
调用 rvalue (z) 来 生成 计算 z 的 右 值 的 指令 。 然 后 它 创 建 并 返回 一 个 新 
的 Access 结 点 ， 此 结 点 包含 两 个 子 结 点 ， 分 别 对 应 于 数组 名 y 及 z 的 右 
值 。 





Ezpr 1ualue(Z : Expr) { 
if ( zz 是 一 个 Id 结 点 ) return Zz; 
else 证 (z 是 一 个 4ccess (Vy,z) 结 点 ， 且 y 是 一 个 到 结 点 ) { 
return new Access(y,rvalue(z)); 


} 


else error; 





图 2-44 函数 1value 的 伪 代 码 


例 2.19 当 结 点 x 表示 数组 访问 a [2*k] 时 ，lvalue (x) 的 调用 将 生成 指 
令 


t=2*k 
并 返回 一 个 表示 a [t] 的 左 值 的 新 结 点 x'"， 其 中 t 是 一 个 新 的 临时 名 字 。 
具体 来 说 ，lvalue 函 数 将 运行 到 代码 
return new Access (y, rvalue (z) ) ; 
处 ， 此 时 y 是 对 应 于 a 的 结 点 ，z 是 对 应 于 表达 式 2*k 的 结 点 。 对 
rvalue (x) 的 调用 生成 了 表达 式 2*k 的 代码 ( 即 三 地 址 语句 t = 2 * 
k) ， 并 返回 表示 临时 名 字 t 的 新 结 点 z'。 这 个 结 点 就 成 为 新 的 Access 结 
点 X 的 第 二 个 字段 的 值 。 
图 2-45 中 的 函数 rvalue 生 成 指令 并 返回 一 个 〈 可 能 是 新 生成 的 ) 结 


点 。 当 x 代表 一 个 标识 符 或 常量 时 ，rvalue 返 回 x 本 身 。 在 其 他 情况 下 ， 
它 都 返回 一 个 对 应 于 新 的 临时 名 字 t 的 Id 结 点 。 各 种 情况 的 处 理 如 下 : 








Exzrpr rualue(T : Expr7) { 
让 (ZY 是 一 个 14 或 者 Constant 结 点 ) return 7z; 
else if ( z 是 一 个 Op (op,y,z) 或 者 Rel(op,y,z) 结 点 ) { 
t 二 新 的 临时 名 字 ; 
生成 对 应 于 t= rualue(y) op rvalue(z) 的 指令 串 ; 
return 一 个 代表 t+ 的 新 结 点 ; 


else f(z 是 一 个 4ccess(yz) 结 点 ) { 
t 三 新 的 临时 名 字 ; 
调用 jualue(z), 它 返回 一 个 4ccess (y,z') 的 结 点 ; 
生成 对 应 于 t= 4ccess (y; 2) 的 指令 串 ; 
return 一 个 代表 上 的 新 结 点 ; 


else if ( zx 是 一 个 4ssign(y,z) 结 点 ) { 
2 = rvalue(z); 
生成 对 应 于 lvalue(y) = z' 的 指令 串 ; 


return z’; 





图 2-45 ”函数 rvalue 的 伪 代 码 


。 如 果 结 点 x 表示 y op Zz， 则 代码 首先 计算 y = rvalue 〈y) 及 Z' = 
rvalue (z) 。 它 创建 一 个 新 的 临时 名 字 t 并 产生 一 个 指令 t=y opz 
(更 精确 地 说 ， 生 成 了 一 个 由 代表 t、y 、op 和 z' 的 字符 串 组 合 而 成 
的 指令 字符 串 〉。 它 返回 一 个 对 应 于 标识 符 t 的 结 点 。 

。 如 果 结 点 x 表示 一 个 数组 访问 y [zj ， 我 们 可 以 复 用 函数 lvalue。 子 
数 调 用 lvalue (x)〉 返回 一 个 数组 访问 y [zj] ， 其 中 z 代 表 一 个 标识 
符 ， 它 保存 了 该 数组 访问 的 偏 移 量 。 函 数 rvalue 会 创建 一 个 临时 变 
时 并 按照 {=y [Lz']」 生 成 一 个 指令 ， 最 后 返回 一 个 对 应 于 t 的 结 


如 果 x 表 示 y =z， 那么 代码 将 首先 计算 z = rvalue (z) 。 它 生成 一 条 
计算 lvalue (y) =z 的 指令 ， 并 返回 结 点 z 


当 将 函数 rvalue 应 用 于 
a[i] = 2*a[j-k] 


的 语法 树 时 ， 它 将 生成 





t3 = j -kk 
tes a | tT 1] 
ti=2* t2 
a[i]=t1 


这 标语 法 树 的 根 是 Assign 结 点 ， 它 的 第 一 个 参数 是 a [i] ， 第 二 个 
参数 是 2*a [j-k] 。 因 此 ， 适 用 rvalue 函 数 的 第 三 种 情况 ， 函 数 被 递归 地 
应 用 于 2*a [j-k] 。 这 棵 子 树 的 根 结 点 是 表示 * 的 Op 结 点 ， 因 此 rvalue 首 
先 创建 一 个 临时 变量 tL， 然 后 处 理 左 运算 分 量 2， 再 后 是 右 运 算 分 量 。 
常量 2 没有 生成 三 地 址 代码 ，rvalue 返 回 它 的 右 值 ， 即 一 个 值 为 2 的 


Constant 结 点 。 


右 运 算 分 量 a [j-k] 是 一 个 Access 结 点 ， 因 此 rvalue 创 建 一 个 新 的 临 
时 变量 t2， 然 后 在 这 个 结 点 上 调用 lvalue 函 数 。 函 数 rvalue 被 递归 地 调用 
来 处 理 表 达 式 j-k。 这 个 调用 的 副作用 是 创建 临时 变量 t3， 然 后 生成 三 
地 址 语句 t3=j-k。 接 着 ， 函 数 的 执行 返回 到 正在 处 理 a [j-k] 的 函数 
lvalue 的 活动 中 ， 临 时 名 字 t2 被 赋予 整个 数组 访问 表达 式 的 右 值 ， 即 


t2=a [t3] 。 


现在 ， 我 们 返回 到 处 理 Op 结 点 2*a [j-k] 的 rvalue 的 活动 中 。 这 次 调 
用 已 经 创建 了 临时 变量 t1。 作 为 一 个 副作用 ，rvalue 生 成 了 一 条 执行 这 
个 乘法 表达 式 的 三 地 址 指令 。 最 后 ， 应 用 于 整个 表达 式 的 rvalue 的 调用 
活动 在 最 后 调用 lvalue 来 处 理 左 部 a [i] ， 然 后 生成 了 一 条 三 地 址 指令 
a [i] =t1。 这 个 指令 把 这 个 赋值 表达 式 的 右 部 赋 给 左 部 。 


改进 表达 式 的 代码 


使 用 如 下 几 种 方法 ， 我 们 可 以 改进 图 2-45 中 的 函数 rvalue， 使 它 生 
成 更 少 的 三 地 址 指令 : 


。 在 之 后 的 优化 阶段 减少 找 贝 指令 的 数目 。 例 如 ， 对 于 指令 t = i + 
1; i = t， 如 果 t 没 有 再 被 使 用 ， 我 们 就 可 以 将 它们 合并 为 1 = i + 


ia 

。 充分 考虑 上 下 文 的 情况 ， 在 最 初生 成 指令 时 就 减少 生成 的 指令 。 例 
如 ， 如 果 一 个 三 地 址 赋值 指令 的 左 部 是 一 个 数组 访问 a [t] ， 那 么 
其 右 部 必然 是 一 个 名 字 、 第 量 或 临时 变量 ， 它 们 都 只 使 用 了 一 个 地 
址 。 但 如 果 左 部 是 一 个 名 字 x， 那 么 其 右 部 可 以 是 一 个 使 用 两 个 地 
址 的 运算 y op z。 











我 们 可 以 按照 如 下 的 方式 来 避免 一 些 拷贝 指令 。 首 先 修改 翻译 函 
数 ， 使 之 生成 一 个 部 分 完成 的 指令 ， 该 指令 只 进行 计算 ， 比 如 计算 
j+k， 但 并 不 确定 将 结果 保存 在 哪里 ， 而 是 用 null 来 蔡 代 结果 地 址 : 

null = j + k (2.8) 

随后 ， 这 个 空 的 结果 地 址 会 被 蔡 换 为 适当 的 标识 符 或 临时 量 。 如 果 
j+k 位 于 一 个 赋值 表达 式 的 右 部 ， 如 i=j+k， 那 么 null 就 会 被 蔡 换 为 标识 
符 。 此 时 (8) 永 变 成 

i=j+k 


但 如 果 j+k 是 一 个 子 表达 式 ， 比 如 它 在 j+k+1 中 ， 那 么 这 个 空 的 结果 
地 址 会 被 蔡 换 成 一 个 新 的 临时 变量 t， 并 且 生 成 一 个 新 的 部 分 指令 : 


t=j+k 
null =t+1 


很 多 编译 器 想方设法 使 得 它 生 成 的 代码 和 汇编 代码 专家 手写 的 一 样 
好 ， 甚 至 更 好 。 如 果 使 用 第 9 半 中 讨论 的 代码 优化 技术 ， 那 么 一 个 有 效 
的 策略 是 首先 使 用 一 个 简单 的 中 间 代 码 生成 方法 ， 然 后 依靠 代码 优化 器 
来 消除 不 必要 的 指令 。 








2.8.5 2.8 节 的 练习 


练习 2.8.1: C 语 言 和 Java 语 言 中 的 for 语 句 具 有 如 下 形式 : 

for (expr1; expr»; expr3) stmt 

第 一 个 表达 式 在 循环 之 前 执行 ， 它 通常 被 用 来 初始 化 循环 下 标 。 第 
二 个 表达 式 是 一 个 测试 ， 它 在 循环 的 每 次 迭代 之 前 进行 。 如 果 这 个 表达 
式 的 结果 变 成 0， 就 退出 循环 。 循 环 本 里 可 以 被 看 作 语 句 { stmt 
expr3; }。 第 三 个 表达 式 在 每 一 次 迭代 的 末尾 执行 ， 它 通常 用 来 使 循环 
下 标 递 增 。 故 for 语 句 的 售 义 类 似 于 


expr1; while (expr>) { stmt exprs; } 


仿照 图 2-43 中 的 类 If， 为 for 语 名 定义 一 个 类 For。 


练习 2.8.2: 程序 设计 语言 C 中 没有 布尔 类 型 。 试 说 明 C 语 言 的 编译 
器 可 能 使 用 什么 方法 将 一 个 让 语句 翻译 成 为 三 地 址 代码 。 


本 章 介 绍 的 语法 制导 翻译 技术 可 以 用 于 构造 如 图 2-46 所 示 的 编译 器 
和 前端。 


if( peek == ’\n’ ) line = line + 1; 





词法 分 析 器 





(if) (() (id, "peek") (eq) (const, ’\n’) ()) 
(id, "line") (assign) (id, "line") (+) (num, 1) (;) 


语法 制导 的 翻译 器 


or 





: i 
: ifFalse peek == tl goto 4 
: line = line + 1 


We 

a 

~8 

褒 
一 


peek (int) line 十 
/ 


?\n’ line El 


图 2-46 一 个 语句 的 两 种 可 能 的 翻译 结果 


。 构造 一 个 语法 制导 翻译 器 要 从 源 语言 的 文法 开始 。 一 个 文法 描述 了 
程序 的 层次 结构 。 文 法 的 定义 使 用 了 称 为 终结 符号 的 基本 符号 和 称 
为 非 终结 符号 的 变量 符号 。 这 些 符 号 代表 了 语言 的 构造 。 一 个 文法 
的 规则 ， 即 产生 式 ， 由 一 个 作为 产生 式 头 或 产生 式 左 部 的 非 终 结 
符 ， 以 及 称 为 产生 式 体 或 产生 式 右 部 的 终结 符号 / 非 终 结 符号 序列 
组 成 。 文 法 中 有 一 个 非 终 结 符 补 指派 为 开始 符号 。 

。 在 描述 一 个 翻译 器 时 ， 在 程序 构造 中 附加 属性 是 非常 有 用 的 。 属 性 
是 指 与 一 个 程序 构造 关联 的 任何 量 值 。 因 为 程序 构造 是 使 用 文法 符 
写 来 表示 的 ， 因 此 属性 的 概念 也 被 扩展 到 文法 符 写 上 。 属 性 的 例子 
包括 与 一 个 表示 数字 的 终结 符号 num 相 关联 的 整数 值 ， 或 与 一 个 表 











示 标 识 符 的 终结 符号 这 相关 联 的 字符 串 。 
词法 分 析 器 从 输入 中 逐个 读 取 字 符 ， 并 输出 一 个 词法 单元 的 流 ， 其 
中 词法 单元 由 一 个 终结 符号 以 及 以 属性 值 形 式 出 现 的 附加 信息 组 
成 。 在 图 2-46 中 ， 词 法 单元 被 写成 用 〈》〉 括 起 的 元 组 。 词 法 单元 
(id，"peek"〉 由 终结 符号 id 和 一 个 指 同 包含 字符 串 "peek" 的 符号 
目的 指针 构成 。 翻 译 占 使 用 符号 表 来 存放 保留 字 和 已 经 过 到 的 
示 识 符 。 
语法 分 析 要 解决 的 问题 是 指出 如 何 从 一 个 文法 的 开始 符号 推导 出 一 
个 给 定 的 终结 符号 串 。 推 导 的 方法 是 反复 将 某 个 非 终结 符 奉 换 为 它 
的 某 个 产生 式 的 体 。 从 概念 上 讲 ， 语 法 分 析 器 会 创建 一 棵 语法 分 析 
树 。 该 树 的 根 结 点 的 标号 为 文法 的 开始 符号 ， 每 个 非 叶 子 结 点 对 应 
于 一 个 产生 式 ， 每 个 叶子 结 点 的 标号 为 一 个 终结 符号 或 空 串 E。 语 
法 分 析 树 推导 出 由 它 的 叶子 结 点 从 左 到 右 组 成 的 终结 符号 串 。 
使 用 被 称 为 预测 语法 分 析 法 的 目 顶 癌 下 《从 语法 分 析 树 的 根 结 点 到 
叶子 结 点 ) 方法 可 以 手工 建立 高 效 的 语法 分 析 器 。 预 测 分 析 器 有 对 
应 于 每 个 非 终结 符 的 子 过 程 。 该 过 程 的 过 程 体 模拟 了 这 个 非 终 结 符 
号 的 各 个 产生 式 。 只 要 在 输入 流 中 辐 前 看 一 个 符号 ， 就 可 以 无 二 义 
地 确定 该 过 程 体 中 的 控制 流 。 其 他 语法 分 析 方 法 见 第 4 章 。 
语法 制导 翻译 通过 在 文法 中 添加 规则 或 程序 片段 来 完成 。 在 本 章 
中 ， 我 们 只 考虑 了 综合 属性 。 任 意 结 点 x 上 的 一 个 综合 属性 的 值 只 
取决 于 x 的 子 结 点 (如 果 有 的 话 ) 上 的 属性 值 。 语 法 制导 定义 将 规 
则 和 产生 式 相 关联 ， 这 些 规则 用 于 计算 属性 值 。 语 法 制导 的 翻译 方 
案 在 产生 式 体 中 家 入 了 称 为 语义 动作 的 程序 片段 。 这些 语义 动作 按 
照 语法 分 析 中 产生 式 的 使 用 顺序 执行 。 
语法 分 析 的 结果 是 源 代码 的 一 种 中 间 表 示 形 式 ， 称 为 中 间 人 代码。 图 
2-46 列 出 了 中 间 代 码 的 两 种 主要 形式 。 抽 和 象 语法 树 中 的 各 个 结 点 代 
表 了 程序 构造 ， 一 个 结 点 的 子 结 点 给 出 了 该 构造 有 意义 的 子 构造 。 
另 一 种 表示 方法 是 三 地 址 代码 ， 它 是 一 个 由 三 地 址 指令 组 成 的 序 
列 ， 其 中 每 个 指令 只 执行 一 个 运算 。 
符号 表 是 存放 有 关 标 识 符 的 信息 的 数据 结构 。 当 分 析 一 个 标识 符 的 
声明 的 时 候 ， 该 标识 符 的 信息 被 放 入 符号 表 中 。 当 在 后 来 使 用 这 个 
标识 符 时 ， 比 如 它 作 为 一 个 表达 式 的 因子 使 用 时 ， 语 义 动 作 将 从 符 
号 表 中 获取 这 些 信息 。 
































[1 单个 斜体 字母 在 第 4 章 中 详细 讨论 文法 时 另 有 它 有 用。 例如， 我 们 
将 使 用 X、Y 和 ZZ 来 表示 终结 符号 或 非 终 结 符号 。 但 是 ， 包 含 两 个 或 两 个 


以 上 字符 的 任何 斜体 名 字 仍然 表示 一 个 非 终结 符号 。 


[21 从 技术 上 讲 ，E 可 以 是 任意 字母 表 〈 符 号 的 集合 ) 上 的 零 个 符 
号 组 成 的 串 。 


[3] 在 这 个 规则 以 及 很 多 其 他 的 规则 中 ， 同 一 个 非 终结 符号 (这 里 
是 expr) 会 在 一 个 产生 式 中 出 现 多 次 。expri 中 的 下 标 1 用 于 区 分 产生 式 
中 expr 的 两 次 出 现 ， 但 “1” 并 不 是 该 非 终 结 符号 的 一 部 分 。 在 下 面 
的 “区 分 一 个 非 终结 符号 的 不 同 使 用 的 约定 ”中 有 更 加 详细 的 描述 。 


[4 在 一 般 的 左 递归 文法 中 ， 非 终结 符号 A 可 能 通过 一 些 中 间 产 生 式 
推导 出 Aa ， 而 不 一 定 存 在 产生 式 A 一 Ada 。 


[5 作为 一 个 小 小 的 优化 ， 我 们 可 以 在 调用 match 之 前 打印 这 个 数 
位 ， 人 避免 将 这 个 数位 保存 起 来 。 一 般 来 说 ， 改 变 语义 动作 和 文法 符号 之 
间 的 顺序 是 有 风险 的 ， 因 为 这 么 做 可 能 改变 这 个 翻译 的 结果 。 


[6] 错 误 处 理 可 以 使 用 Java 的 异常 处 理 机 制 来 实现 。 方 法 之 一 是 声 
明 一 个 扩展 了 系统 类 Exception 的 新 的 异常 ， 比 如 SyntaxError。 然 后 
在 term 或 match 中 检测 到 错误 时 抛 出 SyntaxError 异 常 ， 而 不 是 Error 异 
常 。 然 后 在 main 中 把 对 parse.expr() 的 调用 放 在 一 个 try 语 名 中 。 该 try 
语句 可 以 捕获 SyntaxError 异 常 ， 输 出 一 个 消息 并 结束 。 如 果 这 么 做 ， 
我 们 将 需要 在 图 2-27 的 程序 中 加 入 一 个 类 syntaxError。 要 完成 这 个 扩 
展 ， 我 们 还 必须 修改 match 和 term 的 声明 ， 使 得 它们 不 仅 可 以 抛 出 
IOException， 还 可 以 抛 出 SyntaxError。 同 时 也 必须 重新 声明 调用 它们 
的 函数 expr， 使 得 它 可 以 抛 出 SyntaxError 异 常 。 


[7]ASC11 字 符 通 常 被 转化 为 0~255 之 间 的 整数 。 因 此 我 们 用 大 于 
255 的 整数 来 表示 终结 符号 。 


[8] 比 如 ， 在 0 语言 中 ， 程 序 块 要 么 是 一 个 济 数 ， 要 么 是 光 数 中 由 花 
括号 分 隔 的 一 个 部 分 ， 这 个 部 分 中 有 一 个 或 多 个 声明 。 


[8] “环境 ”是 另 一 个 用 于 表示 与 程序 中 某 个 点 相关 的 符号 表 集合 
的 术语 。 


[10] 我 们 也 可 以 使 用 另 一 种 方法 来 处 理 ， 可 以 在 类 Env 中 加 入 静态 
操作 push 和 pop， 而 不 用 显 式 地 保存 和 恢复 符号 表 。 


[111 和 它 的 对 应 “动态 ” 指 的 是 “ 当 程 序 运行 时 ”。 很 多 语言 也 会 
进行 某 些 动态 检查 。 比 如 ， 像 Java 这 样 的 面向 对 象 语 言 有 时 必须 在 程序 
执行 时 检查 类 型 ， 因 为 可 能 需要 根据 一 个 对 象 的 特定 子 类 来 决定 应 该 将 
哪个 方法 应 用 于 该 对 象 。 


[121 其 中 的 右 括号 的 唯一 作用 是 将 表达 式 和 语句 分 开 。 左 括号 实际 
上 没有 任何 含义 ， 把 它 放 在 那里 只 是 为 了 让 whi le 语句 看 起 来 顺眼 一 
些 ， 因 为 如 果 没 有 左 括号 ，0 语 言 中 就 会 出 现 不 匹配 的 括号 对 。 


[13] 这 个 简单 语言 支持 a [a [n] ] ， 但 是 不 支持 a [m] [n] 。 请 注 
意 ，a [a [n] ] 是 形 如 a [E] 的 访问 ， 其 中 的 E 是 a [n] 。 


第 3 章 ”词法 分 析 


本 章 我 们 主要 讨论 如 何 构建 一 个 词法 分 析 霹 。 如 果 要 手动 地 实现 词 
法 分 析 器 ， 首 先 建立 起 每 个 词法 单元 的 词法 结构 图 或 其 他 描述 会 有 所 必 
助 。 然 后 ， 我 们 可 以 编写 代码 来 识别 输入 中 出 现 的 每 个 词素 ， 并 返回 识 
别 到 的 词法 单元 的 有 关 信 息 。 


我 们 也 可 以 通过 如 下 方式 自动 生成 一 个 词法 分 析 器 : 同一 个 词法 分 
析 器 生成 工具 (lexical-analyzer generator) 描述 出 词素 的 模式 ， 然 后 将 
这 些 模式 编译 为 具有 词法 分 析 器 功能 的 代码 。 这 种 方法 使 得 修改 词法 分 
析 器 的 工作 变 得 更 加 简单 ， 因 为 我 们 只 需 改写 那些 受到 影响 的 模式 ， 无 
需 改 写 整 个 程序 。 这 种 方法 还 加 快 了 词法 分 析 器 的 实现 速度 ， 因 为 程序 
员 只 需要 在 很 高 的 模式 层次 上 描述 软件 ， 束 可 以 依赖 生成 工具 来 生成 详 
细 的 代码 。 我 们 将 在 3.5 节 中 介绍 一 个 名 为 Lex 的 词法 分 析 器 生成 工具 
( 它 的 一 个 最 新 的 变 体 称 为 Flex〉。 


在 介绍 词法 分 析 器 生成 工具 之 前 ， 我 们 先 介 绍 正则 表达 式 。 正 则 表 
达 式 是 一 种 可 以 很 方便 地 描述 词 又 模式 的 方法 。 我 们 将 介绍 如 何 对 正则 
表达 式 进行 转换 .首先 转换 为 不 确定 有 穷 自 动机 ， 然 后 再 转换 为 确定 有 
穷 目 动机 。 后 两 种 表示 方法 可 以 作为 一 个 “驱动 程序 ”的 输入 。 这 个 驱动 
程序 就 是 一 段 模拟 这 些 上 自动 机 的 代码 ， 它 使 用 这 些 目 动 机 来 确定 下 一 个 
词法 单元 。 这 个 驱动 程序 以 及 对 目 动 机 的 规约 形成 了 词法 分 析 器 的 核心 


部 分 。 


























3.1 词法 分 析 器 的 作用 


词法 分 析 是 编译 的 第 一 阶段 。 词 法 分 析 器 的 主要 任务 是 读 入 源 程序 
的 输入 字符 、 将 它们 组 成 词素 ， 生 成 并 输出 一 个 词法 单元 序列 ， 每 个 词 
法 单元 对 应 于 一 个 词素 。 这 个 词法 单元 序列 被 输出 到 语法 分 析 器 进行 语 
法 分 析 。 词 法 分 析 器 通 癌 还 要 和 符号 表 进 行 区 互 。 当 词法 分 析 器 及 现 了 
一 个 标识 符 的 词素 时 ， 它 要 将 这 个 词素 添加 到 符号 表 中 。 在 某 些 情况 
下 ， 词 法 分 析 需 会 从 符号 表 中 读 取 有 关 标 识 符 种 类 的 信息 ， 以 确定 问 语 
法 分 析 器 传送 哪个 词法 单元 。 


这 种 交互 过 程 在 图 3-1 中 给 出 。 通 常 ， 交 互 是 由 语法 分 析 右 调用 词 
法 分 析 器 来 实现 的 。 图 中 的 命令 getNextToken 所 指示 的 调用 使 得 词法 分 
析 占 从 它 的 输入 中 不 断 读 取 字 符 ， 直 到 它 识别 出 下 一 个 词素 为 止 。 词 法 
分 析 器 根据 这 个 词 系 生成 下 一 个 词法 单元 并 返回 给 语法 分 析 右 。 











图 3-1 词法 分 析 器 与 语法 分 析 器 之 间 的 交互 


词法 分 析 器 在 编译 器 中 人 负责 读 取 源 程序 ， 因 此 它 还 会 完成 一 些 识别 
词素 之 外 的 其 他 任务 。 任 务 之 一 是 过 小 掉 源 程序 中 的 注释 和 空白 〈 空 
格 、 换 行 符 、 制 表 符 以 及 在 输入 中 用 于 分 隅 词 法 单元 的 其 他 字符 ); 为 
一 个 任务 是 将 编译 器 生成 的 错误 消息 与 源 程序 的 位 置 联系 起 来 。 例 如 ， 
词法 分 析 句 可 以 负责 记录 遇 到 的 换行 符 的 个 数 ， 以 便 给 每 个 出 错 消 轧 赋 
予 一 个 行 号 。 在 某 些 编译 器 中 ， 词 法 分 析 器 会 建立 源 程序 的 一 个 找 贝 
并 将 出 错 消 妃 插入 到 适当 位 置 。 如 果 源 程序 使 用 了 一 个 宏 预 处 理 器 ， 则 
宏 的 扩展 也 可 以 由 词法 分 析 器 完成 。 


有 时 ， 词 法 分 析 器 可 以 分 成 两 个 级 联 的 处 理 阶 段 : 


1) 扫描 阶段 主要 负责 完成 一 些 不 需要 生成 词法 单元 的 简单 处 理 ， 
比如 删除 注释 和 将 多 个 连续 的 空白 字符 压缩 成 一 个 字符 。 


2) 词法 分 析 阶 段 是 较为 复杂 的 部 分 ， 它 处 理 扫描 阶段 的 输出 并 生 
成 词法 单元 。 
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把 编译 过 程 的 分 析 部 分 划分 为 词法 分 析 和 语法 分 析 阶 段 有 如 下 几 个 
原因 : 





1) 最 重要 的 考虑 是 简化 编译 器 的 设计 。 将 词法 分 析 和 语法 分 析 分 
离 通常 使 我 们 至 少 可 以 简化 其 中 的 一 项 任务 。 例 如 ， 如 果 一 个 语法 分 析 
需 上 必须 把 空白 符 和 注释 当 作 语法 单元 进行 处 理 ， 那 么 它 束 会 比 那些 假设 
空白 和 注释 已 经 被 词法 分 析 器 过 滤 卸 的 处 理 器 复杂 得 多 。 如 果 我 们 正在 
设计 一 个 新 的 语言 ， 将 词法 和 语法 分 开 考虑 有 助 于 我 们 得 到 一 个 更 加 清 
晰 的 语言 设计 方案 。 


2) 提高 编译 器 的 效率 。 把 词法 分 析 器 独立 出 来 使 我 们 能 够 使 用 专 
用 于 词法 分 析 任务 、 不 进行 语法 分 析 的 技术 。 此 外 ， 我 们 可 以 使 用 专门 
的 用 于 读 取 输 入 字符 的 缓冲 技术 来 显著 提高 编译 器 的 速度 。 

3) 增强 编译 器 的 可 移植 性 。 输 入 设备 相关 的 特殊 性 可 以 被 限制 在 
词法 分 析 器 中 。 
3.1.2 ”词法 单元 、 模 式 和 词素 


在 讨论 词法 分 析 时 ， 我 们 使 用 三 个 相关 但 有 区 别 的 术语 : 


。 词法 单元 由 一 个 词法 单元 名 和 一 个 可 选 的 属性 值 组 成 。 词 法 单元 名 
是 一 个 表示 茶 种 词法 单位 的 抽象 符号 ， 比 如 一 个 特定 的 关键 字 ， 或 
者 代表 一 个 标识 符 的 输入 字符 序列 。 词 法 单元 名 字 是 由 语法 分 析 器 


处 理 的 输入 符号 。 在 后 面 的 内 容 中 ， 我 们 通常 使 用 黑体 字 给 出 词法 
单元 名 。 我 们 将 使 用 词法 单元 的 名 字 来 引用 一 个 词法 单元 。 

。 模式 描述 了 一 个 词法 单元 的 词素 可 能 具有 的 形式 。 当 词法 单元 是 一 
个 关键 字 时 ， 它 的 模式 就 是 组 成 这 个 关键 字 的 字符 序列 。 对 于 标识 
0 
号 串 匹配 。 

。 词素 是 源 程 序 中 的 一 个 字符 序列 ， 它 和 某 个 词法 单元 的 模式 匹配 ， 
并 被 词法 分 析 器 识别 为 该 词法 单元 的 一 个 实例 。 


图 3-2 给 出 了 一 些 常见 的 词法 单元 、 非 正式 描述 的 词法 单元 的 模 
式 ， 开 给 出 了 一 些 示例 词素 。 下 面 说 明 上 述 概念 在 实际 中 是 如 何 应 用 
的 。 在 C 语 句 


printf ("Total=%d\n",score).; 


中 ，printf 和 score 都 是 和 词法 单元 id 的 模式 匹配 的 词素 ， 
而 “Total=%dxn 则 是 一 个 和 literal 克 配 的 词素 。 


































词法 单元 非 正式 描述 








词素 示例 




























if 字符 i, 下 if 

else 字符 e, 1, s, e else 

comparison | < 或 > 或 <= 或 >= 或 == 或 != <= 二 

id 字母 开头 的 字母 / 数字 串 pi, score, D2 
number 任何 数字 常量 3.14159, 0, 6.02e23 





在 两 个 “之 间 ， 除 ”以 外 的 任何 字符 
图 3-2 ”词法 单元 的 例子 


”在 很 多 程序 设计 语言 中 ， 下 面 的 类 别 覆 过 了 大 部 分 或 所 有 的 词法 单 
刀 : 


literal "core dumped' 














Ee 0 


2) 表示 运算 符 的 词法 单元 。 它 可 以 表示 单个 运算 符 ， 也 可 以 像 图 
3-2 中 的 comparison 那 样 ， 表 示 一 类 运算 符 。 


3) 一 个 表示 所 有 标识 符 的 词法 单元 。 














4) 一 个 或 多 个 表示 常量 的 词法 单元 ， 比 如 数字 和 字面 值 字符 串 。 


5) 每 一 个 标点 符号 有 一 个 词法 单元 ， 比 如 左右 括号 、 带 号 和 分 
号 
8 


3.1.3 词法 单元 的 属性 


如 果 有 多 个 词素 可 以 和 一 个 模式 匹配 ， 那 么 词法 分 析 器 必须 辐 编 译 
器 的 后 续 阶段 提供 有 关 被 匹配 词素 的 附加 信息 。 例 如 ，0 和 1 都 能 和 词法 
单元 number 的 模式 匹配 ， 但 是 对 于 代码 生成 器 而 言 ， 至 关 重 要 的 是 知 
道 在 源 程 序 中 找到 了 哪个 词素 。 因 此 ， 在 很 多 情况 下 ， 词 法 分 析 器 不 仅 
仅 辐 语法 分 析 器 返回 一 个 词法 单元 名 字 ， 还 会 返回 一 个 摘 述 该 词法 单元 
的 词素 的 属性 值 。 词 法 单元 的 名 字 将 影响 语法 分 析 过 程 中 的 决定 ， 而 这 
个 属性 则 会 影响 语法 分 析 之 后 对 这 个 词法 单元 的 翻译 。 


我 们 假设 一 个 词法 单元 至 多 有 一 个 相关 的 属性 值 ， 当 然 这 个 属性 值 
可 能 是 一 个 组 合 了 多 种 信息 的 结构 化 数据 。 最 重要 的 例子 是 词法 单 
元 id， 我 们 通常 会 将 很 多 信息 和 它 关 联 。 一 般 来 说 ， 和 一 个 标识 符 有 关 
的 信息 一 一 例如 它 的 词素 、 类 型 、 它 第 一 次 出 现 的 位 置 〈 在 发 出 一 个 有 
天 该 标识 符 的 错误 消息 时 需要 使 用 这 个 信息 ) 都 保存 在 符号 表 中 。 
ee 


























识别 词法 单元 时 的 棘手 问题 


如 果 给 定 一 个 描述 了 某 词法 单元 的 词素 的 模式 ， 在 与 之 匹配 的 词 
素 出 现在 输入 中 时 识别 出 匹配 的 词素 是 相对 简单 的 。 然 而 ， 在 某 些 程 
序 设 计 语 言 中 ， 要 判断 是 否 识别 到 一 个 和 茶 词法 单元 匹配 的 词素 并 不 
是 一 件 轻而易举 的 事 。 下 面 的 例子 来 自 Fortran 语 言 的 固定 格式 
(fixed-format) 程序 。Fortran 90 中 仍然 支持 固定 格式 。 在 语句 


DO 5 工 = 工 .25 


中 ， 在 我 们 看 到 1 后 的 小 数 点 之 前 ， 我 们 并 不 能 确定 po5I 是 第 一 个 词 








， 即 一 个 标识 符 词 法 单元 的 实例 。 注 意 ， 在 Fortran 语 言 的 固定 格式 
， 空 格 是 被 忽略 的 (这 是 一 种 过 时 的 惯例 ) 。 假 如 我 们 看 到 的 是 一 
逗号 ， 而 不 是 小 数 点 ， 那么 我 们 就 得 到 了 一 个 doi 天 名 


DO 5I = 1, 25 


在 这 个 语句 中 ， 第 一 个 词素 是 关键 字 D0。 


之 五 沸 








[ER 寻 〗 Fortran 语 名 


E=M* C ** 2 


中 的 词法 单元 名 字 和 相关 的 属性 值 可 写成 如 下 的 名 字 - 属 性 对 序列 : 





<id, 指向 符号 表 中 王 的 条 目的 指针 > 
<assign_op> 
<id, 指向 符号 表 中 M 的 条 目的 指针 > 


<mult_op> 
<id, 指向 符号 表 中 C 的 条 目的 指针 > 
<exp_op> 


<number, 整数 值 2> 


注意 ， 在 某 些 对 中 ， 特 别 是 运算 符 、 标 点 符号 和 关键 字 的 对 中 ， 不 需要 
有 属性 值 。 在 这 个 例子 中 ， 词 法 单元 number 有 一 个 整数 属性 值 。 在 实 

践 中 ， 编 译 右 将 保存 一 个 代表 该 常量 的 字符 嘻 ， 并 将 一 个 指 问 该 字符 串 
的 指针 作为 number 的 属性 值 。 











3.1.4 词法 错误 


如 果 没 有 其 他 组 件 的 帮助 ， 词 法 分 析 器 很 难 发 现 源 代码 中 的 错误 。 
比如 ， 当 词法 分 析 需 在 C 程 序 片 类 


fi (a==f (x) ) .. 


中 第 一 次 遇 到 fi 时 ， 它 无 法 指出 fi 守 竟 是 关键 字 计 的 误 写 还 是 一 个 未 声 








明 的 函数 标识 符 。 由 于 fi 是 标识 符 庆 的 一 个 合法 词素 ， 因 此 词法 分 析 器 
必须 问 语 法 分 析 器 返回 这 个 刘 词 法 单元 ， 而 让 编译 器 的 另 一 个 阶段 〈 在 
这 个 例子 里 是 语法 分 析 堪 ) 去 处 理 这 个 因为 字母 题 倒 而 引起 的 错误 。 


然而 ， 假 设 出 现 所 有 词法 单元 的 模式 都 无 法 和 剩余 输入 的 茶 个 前 绥 
相 匹 配 的 情况 ， 此 时 词法 分 析 避 就 不 能 继续 处 理 输 入 。 当 出 现 这 种 情况 
时 ， 最 简单 的 错误 恢复 策略 是 “您 居 模 式 ” 恢 复 。 我 们 从 剩余 的 输入 中 不 
晰 删除 字符 ， 直 到 词法 分 析 口 能够 在 剩余 输入 的 开头 及 现 一 个 正确 的 词 
法 单元 为 止 。 这 个 恢复 技术 可 能 会 给 语法 分 析 器 珊 来 混乱 。 但 是 在 交互 
计算 环境 中 ， 这 个 技术 已 经 足够 了 。 

可 能 采取 的 其 他 错误 恢复 动作 包括 : 

1) 从 剩余 的 输入 中 删除 一 个 字符 。 

2) 问 剩 余 的 输入 中 插入 一 个 遗漏 的 字符 。 

3》 用 二 个 字符 来 莹 换 为 一 个 字符 。 

4) 交换 两 个 相 邻 的 字符 。 

这 些 变换 可 以 在 试图 修复 错误 输入 时 进行 。 最 简单 的 策略 是 看 一 下 
征 否 可 以 通过 一 次 变换 将 剩余 输入 的 某 个 前 绥 变 成 一 个 合法 的 词素 。 这 
种 朱 略 还 是 有 道理 的 ， 因 为 在 实践 中 ， 大 多 数 词 法 错误 只 涉及 一 个 字 
人 符 。 妨 外 一 种 更 加 通用 的 改正 集 略 是 计算 出 最 少 需 要 多 少 次 变换 才能 够 


把 一 个 源 程序 转换 成 为 一 个 只 包含 合法 词素 的 程序 。 但 是 在 实践 中 发 现 
这 种 方法 的 代价 太 高 ， 不 值得 使 用 。 





























3.1.5 3.1 节 的 练习 


练习 3.1.1: 根据 3.1.2 节 中 的 讨论 ， 将 下 面 的 C++ 程序 


float limitedSquare(x){float x; 
/* returns x-squared, but never more than 100 */ 
return (x<=-10.0||x>=10.0)?100:;x*x; 


划分 成 正确 的 词素 序列 。 哪 些 词 素 应 该 有 相关 联 的 词法 值 ? 应 该 具有 什 
么 值 ? 


练习 3.1.2: 像 HTML 或 XML 之 类 的 标记 语言 不 同 于 传统 的 程序 设计 
语言 ， 它 们 要 么 包含 有 很 多 标点 符号 〈 标 记 ) ， 如 HTML， 要 么 使 用 由 
用 户 自 定 义 的 标记 集合 ， 如 XML 。 而 且 标记 还 可 以 带 有 参数 。 请 指出 
如 何 把 如 下 的 HIML 文 档 








Here is a photo of <B>my house</B> ; 

<P><IMG SRC = "house.gif"><BR> 

See <A HREF = "morePix.html">More Pictures</A> if you 
liked that one.<P> 


划分 成 适当 的 词素 序列 。 哪 些 词 素 应 该 具有 相关 联 的 词法 值 ? 应 该 具有 
什么 样 的 值 ? 





3.2 ”输入 绥 冲 





在 讨论 如 何 识别 输入 流 中 的 词素 之 前 ， 我 们 首先 讨论 几 种 可 以 加 快 
源 程序 读 入 速度 的 方法 。 源 程序 读 入 虽然 简单 ， 却 很 重要 。 由 于 我 们 稼 
常 需 要 俘 看 一 个 词素 之 后 的 加 干 字符 才能 够 确定 是 否 找 到 了 正确 的 词 
素 ， 因 此 这 个 任务 变 得 有 些 困 难 。 在 3.1 节 的 “识别 词法 单元 时 的 棘手 问 
题 * 中 给 出 了 一 个 极端 的 例子 。 但 是 在 实践 中 ， 很 多 情况 下 我 们 的 确 需 
要 至 少 向 前 看 一 个 字符 。 比 如 ， 我 们 只 有 读 取 到 一 个 非 字 和 母 或 数字 的 字 
符 之 后 才能 确定 我 们 已 经 到 达 一 个 标识 符 的 末尾 ， 因 此 这 个 字符 不 是 id 
的 词素 的 一 部 分 。 在 C 语 言 中 ， 像 -、= 或 < 这 样 的 单字 符 运 算 符 也 有 可 能 
是 ->、== 或 <= 这 样 的 双 字 符 运 算 符 的 开始 字符 。 因 此 ， 我 们 将 介绍 一 种 
双 缓 冲 区 方案 ， 这 种 方案 能 够 安全 地 处 理 向 前 看 多 个 符号 的 问题 。 然 后 
我 们 将 考虑 一 种 改进 方法 。 这 种 方法 使 用 “哨兵 标记 ”来 节约 用 于 检查 绥 
冲 区 末端 的 时 间 。 











3.2.1 缓冲 区 对 


由 于 在 编译 一 个 大 型 源 程序 时 需要 处 理 大 量 的 字符 ， 处 理 这 些 字符 
需要 很 多 的 时 间 ， 因 此 开发 了 一 些 特殊 的 缓冲 技术 来 减少 用 于 处 理 单个 
输入 字符 的 时 间 开销 。 一 种 重要 的 机 制 就 是 利用 两 个 交 葵 读 入 的 缓冲 
区 ， 如 图 3-3 所 示 。 





forward 
lexemeBegin 


图 3-3 ”使 用 一 对 输入 缓冲 区 





每 个 缓冲 区 的 容量 都 是 N 个 字符 ， 通 党 N 是 一 个 磁盘 块 的 大 小 ， 如 
4096 字 节 。 我 们 可 以 使 用 系统 读 取 命令 一 次 将 N 个 字符 读 入 到 缓冲 区 
中 ， 而 不 是 每 恋 入 一 个 字符 调用 一 次 系统 读 取 命 令 。 如 末 输 入 文件 中 的 
剩余 字符 不 足 N 个 ， 那 么 加 会 有 一 个 特殊 字符 《〈 用 eof 表示 ) 来 标记 源 文 
件 的 结束 。 这 个 特殊 字符 不 同 于 任何 可 能 出 现在 源 程序 中 的 字符 。 








程序 为 输入 维护 了 两 个 指针 : 


1) lexemeBegin 指 针 : 该 指针 指 癌 当前 词素 的 开始 处 。 当 前 我 们 正 
试图 确定 这 个 词 系 的 结尾 。 


2) forward 指 针 : 它 一 直 癌 前 扫描 ， 直 到 发 现 某 个 模式 被 匹配 为 
止 。 做 出 这 个 决定 所 依据 的 策略 将 在 本 章 的 其 余部 分 中 讨论 。 


一 旦 确定 了 下 一 个 词素 ，forward 指 针 将 指向 该 词素 结尾 的 字符 。 
词法 分 析 器 将 这 个 词素 作为 某 个 返回 给 语法 分 析 器 的 词法 单元 的 属性 值 
记录 下 来 。 然 后 使 lexemeBegin 指 针 指 疝 刚 刚 找 到 的 词素 之 后 的 第 一 个 
字符 。 在 图 3-3 中 ， 我 们 看 到 ，forward 指 针 已 经 越过 下 一 个 词素 
ee 
由 目 。 


将 forward 指 针 前 移 要 求 我 们 首先 检查 是 否 已 经 到 达 茶 个 缓冲 区 的 
末尾 。 如 果 是 ， 我 们 必须 将 NN 个 新 字符 读 到 男 一 个 缓冲 区 中 ， 且 
将 forward 指 针 指 癌 这 个 新 载 入 字符 的 缓冲 区 的 头 部 。 只 要 我 们 从 不 需 
要 越过 实际 的 词 系 同 前 看 很 远 ， 以 全 于 这 个 词素 的 长 度 加 上 我 们 辐 前 看 
人 
义 中 的 词 隶 。 











3.2.2 ”哨兵 标记 





如 果 我 们 采用 上 一 节 中 擅 述 的 方案 ， 那 么 在 每 次 癌 前 移动 forward 
中 针 时 ， 我 们 都 必须 检查 是 否 到 达 了 缓冲 区 的 末尾 。 知 是 ， 那 么 我 们 必 
须 加 载 另 一 个 缓冲 区 。 因 此 每 读 入 一 个 字符 ， 我 们 需要 做 两 次 测试 : 一 
次 是 检查 是 否 到 达 绥 冲 区 的 末尾 ， 另 一 次 是 确定 读 入 的 字符 是 什么 《后 
者 可 能 是 一 个 多 路 分 支 选 择 语 句 ) 。 如 果 我 们 扩展 每 个 缓冲 区 ， 使 它们 
在 末尾 包含 一 个 “哨兵 ” (sentinel) 字符 ， 我 们 就 可 以 把 对 缓冲 区 末端 
的 测试 和 对 当前 字符 的 测试 合 二 为 一 。 这 个 哨兵 字符 必须 是 一 个 不 会 在 
源 程序 中 出 现 的 特殊 字符 ， 一 个 上 自然 的 选择 就 是 字符 eof。 


图 3-4 显 示 的 缓冲 区 安排 与 图 3-3 一 至， 只 是 加 入 了 “哨兵 标志 ” 字 
人 符 。 请 注意 ，eof 仍 然 可 以 用 来 标记 整个 输入 的 结尾 。 任 何不 是 出 现在 
茶 个 缓冲 区 末尾 的 eof 都 表示 到 达 了 输入 的 结尾 。 图 3-5 忌 结 了 前 移 











forward 指 针 的 算法 。 请 注意 ， 我 们 在 大 部 分 情况 下 只 需要 进行 一 次 测 
试 就 可 以 根据 forward 所 指 问 的 字符 完成 多 路 分 文 跳 转 。 只 有 妆 我 们 确实 
处 于 缓冲 区 末尾 或 输入 末尾 时 ， 才 需要 进行 更 多 的 训 试 。 











:MI xieoflc:r* :wx :27:eof 














forward 
lexemeBegin 


图 3-4 各 个 缓冲 区 末端 的 “哨兵 标记 ?” 


switch ( *forward ++ ) { 
case eof: 
if (forward 在 第 一 个 缓冲 区 未 尾 ) { 
装载 第 二 个 缓冲 区 ; 
forward= 第 二 个 缓冲 区 的 开头 ; 


} 

else if (forward 在 第 二 个 缓冲 区 未 尾 ) { 
装载 第 一 个 缓冲 区 ; 
jJorward= 第 一 个 缓冲 区 的 开头 ; 


} 
else /* 缓 冲 区 内 部 的 eof 标记 输入 结束 * / 
终止 词法 分 析 
break; 
其 他 字符 的 情况 





图 3-5 ” 带 有 哨兵 标记 的 forward 指 针 移 动 算法 


3.3 ”词法 单元 的 规约 


正则 表达 陈 是 一 种 用 来 描述 词 系 模式 的 重要 表示 方法 。 虽 然 正 则 表 
达 式 不 能 表达 出 所 有 可 能 的 模式 ， 但 是 它们 可 以 高 效 地 描述 在 处 理 词法 
单元 时 要 用 到 的 模式 类 型 。 在 这 一 三 中 ， 我 们 将 研究 正则 表达 式 的 形式 
化 表示 方法 。 在 3.5 节 中 ， 我 们 将 看 到 如 何 将 这 些 表达 式 运用 到 词法 分 
析 融 生成 工具 中 。 然 后 ，3.7 节 显示 了 如 何 将 正则 表达 式 转换 成 能 够 识 
别 所 描述 的 词法 单元 的 自动 机 ， 并 由 此 建立 一 个 词法 分 析 器 。 








我 们 会 不 会 用 完 缓冲 区 空间 ? 


在 大 多 数 现代 程序 设计 语言 中 ， 词 素 很 短 ， 向 前 看 一 到 两 个 字符 
束 能 够 确定 一 个 词素 ， 所 以 数 千 字 市 大 小 的 缓冲 区 就 已 经 足够 了 。 使 
用 3.2.1 节 中 介绍 的 双 缓 冲 区 方案 肯定 没 问题 。 但 是 仍然 存在 一 些 风 
险 。 比 如 ， 如 末 字 符 串 包含 很 多 行 ， 那 么 我 们 就 有 可 能 面临 单个 词素 
的 长 度 超过 N 的 情况 。 为 了 避免 长 字符 串 引 起 的 问题 ， 我 们 可 以 把 它 
们 看 作 不 同 组 成 部 分 的 连接 ， 每 个 组 成 部 分 对 应 于 该 字符 串 的 一 行 。 
比如 ， 在 Java 语 言 中 ， 人 们 习惯 于 将 一 个 字符 串 写 成 多 个 部 分 ， 每 个 
部 分 占 一 行 ， 并 在 每 个 部 分 的 结尾 加 上 运算 符 +， 将 它们 连接 起 来 。 


当 需 要 向 前 看 任意 多 个 字符 时 ， 就 会 出 现 一 个 更 加 严重 的 问题 。 
比如 ， 像 PL/I 这 样 的 语言 没有 将 关键 字 作 为 保留 字 来 处 理 ， 也 就 是 
说 ， 你 可 以 使 用 一 个 和 某 个 关键 字 〈 比 如 DECLARE) 同名 的 标识 
符 。 当 词法 分 析 器 处 理 以 DECLARE (ARG1,ARG2,...... 开头 的 PL/I 程 序 的 
文本 时 ， 它 不 能 确定 DECLARE 究 苋 是 一 个 关键 字 〈 此 时 后 面 的 ARG1 等 
是 被 声明 的 变量 ) ， 还 是 一 个 带 有 参数 的 过 程 名 。 因 为 这 个 原因 ， 大 
多 数 现 代 程 序 设计 语言 都 保留 关键 字 。 然 而 ， 如 果 不 保 留 关键 字 ， 我 
们 可 以 把 像 DECLARE 这 样 的 关键 字 当 作 一 个 二 义 性 的 标识 符 ， 由 语 
ee 























3.3T 昌 和 语言 





字母 表 (alphabet) 是 一 个 有 限 的 符号 集合 。 符 号 的 典型 例子 包括 
字母 、 数 位 和 标点 符号 。 集 合 {10，1} 是 二 进 制 字母 表 (binary 
alphabet) 。ASCII 是 字母 表 的 一 个 重要 例子 ， 它 被 用 于 很 多 软件 系统 
中 。Unicode 包 含 了 大 约 100000 个 来 自 世 界 各 地 的 字符 ， 它 是 字母 表 的 
另 一 个 重要 例子 。 





实现 多 路 分 支 


我 们 也 许 会 认为 图 3-5 的 算法 中 的 switch 需 要 执行 很 多 步 ， 而 且 
将 eof 分 支 放 在 开头 也 不 是 明智 的 选择 。 但 事实 上 ， 我 们 按照 什么 顺 





序列 出 针对 各 个 字符 的 case 并 不 重要 。 在 实践 中 ， 可 以 用 一 个 以 字符 
为 下 标的 地 址 数组 来 存放 对 应 于 各 个 case 的 指令 地 址 ， 并 根据 此 数组 
中 找到 的 目标 地 址 一 次 完成 跳 转 。 








某 个 字母 表 上 的 一 个 囊 (string)〉 是 该 字母 表 中 符号 的 一 个 有 穷 序 
列 。 在 语言 理论 中 ， 术 语 “ 句 子 *? 和 “ 字 ” 第 常 被 当 作 “ 串 ”的 同义词 。 串 6 的 
长 度 ， 通 常 记 作 |s|， 是 指 s 中 符号 出 现 的 次 数 。 例 如 ，banana 是 一 个 长 度 
为 6 的 串 。 空 事 (empty string) 是 长 度 为 0 的 串 ， 用 Ee 表示 。 


语言 (language) 是 某 个 给 定 字 母 表 上 一 个 任意 的 可 数 的 串 集合 。 
这 个 定义 非常 宽泛 。 根 据 这 个 定义 ， 像 空 集 @ 和 仪 包含 空 串 的 集合 { EE} 
都 是 语言 。 所 有 语法 正确 的 C 程 序 的 集合 ， 以 及 所 有 语法 正确 的 身 语 句 
子 的 集合 也 都 是 语言 ， 虽 然后 两 种 语言 难以 精确 地 描述 。 注 意 ， 这 个 定 
义 并 没有 要 求 语言 中 的 串 一 定 具 有 某 种 含义 。 定 义 串 的 “含义 ”的 方法 将 
在 第 5 章 中 讨论 。 




















串 的 各 部 分 的 术语 
下 面 是 一 些 与 串 相 关 的 第 用 术语 : 


1) 串 s$ 的 前 绥 (prefix) 是 从 s 的 尾部 删除 0 个 或 多 个 符号 后 得 到 
的 串 。 例 如 ，ban、banana 和 和 对 是 banana 的 前 缀 。 


2) 串 S$ 的 后 绥 〈suffix) 是 从 s 的 开始 处 删除 0 个 或 多 个 符号 后 在 
到 的 串 。 例 如 ，nana、banana 和 EE 是 panana 的 后 级 。 


3) 串 s 的 子囊 (substring〉 是 删除 s 的 某 个 前 级 和 某 个 后 级 之 后 得 
到 的 串 。 例 如 ，pbnana、nan 和 EE 是 panana 的 子 串 。 


4) 串 s 的 真 (tue) 前 缀 、 真 后 级 、 真 子音 分 别 是 s 的 既 不 等 于 
e ， 也 不 等 于 s 本 身 的 前 级、 后 绷 和 子 利 。 


5) 串 s 的 子 序列 〈subsequence) 是 从 s 中 删除 0 个 或 多 个 符号 后 得 
到 的 串 ， 这 些 被 删除 的 符号 可 能 不 相 邻 。 例 如 ，baan 是 banana 的 一 个 
子 序列 。 


纹 





如 果 x 和 y 是 串 ， 那 么 x 和 y 的 连接 (concatenation) 〈 记 作 xy) 是 把 y 
附加 到 x 后 面 而 形成 的 串 。 例 如 ， 如 果 x=dog 且 y=house， 那 么 





Xxy=doghouse。 空 串 是 连接 运算 的 日 位 元 ， 也 就 是 说 ， 对 于 任何 串 s 都 
有 ，sE=Es=s。 


如 果 把 两 个 串 的 连接 看 成 是 这 两 个 串 的“ 乘积”， 我 们 可 以 定义 串 
的 “指数 ”运算 如 下 : 定义 st 为 E， 并 且 对 于 i>0，si 为 s+ts。 因 为 Es=s， 
由 此 可 知 s!=s，s?=ss，s3=sss， 依 此 类 推 。 





3.3.2 ”语言 上 的 运算 


在 词法 分 析 中 ， 最 重要 的 语言 上 的 运算 是 并 、 连 接 和 闭 包 运算 。 图 
3-6 给 出 了 这 些 运 算 的 正式 定义 。 并 运算 是 常见 的 集合 运算 。 语 言 的 连 
接 就 是 以 各 种 可 能 的 方式 ， 从 第 一 个 语言 中 任 取 一 个 串 ， 再 从 第 二 个 语 
言 任 取 一 个 串 ， 然 后 将 它们 连接 后 得 到 的 所 有 串 的 集合 。 一 个 语言 工 的 
Kleene 闭 包 〈closure) ， 记 为 L”"， 就 是 将 L 连 接 0 次 或 多 次 后 得 到 的 上 串 
集 。 注 意 ，L9， 即 “将 LL 连接 0 次 得 到 的 集合 "?， 被 定义 为 {Ee }， 并 且 Li 被 
归纳 地 定义 为 LEF 世 。 最 后 ， 工 的 正 闭 包 ，“《 记 为 L- ) 和 Kleene 闭 包 基 本 





相同 ， 但 是 不 包含 L*。 也 就 是 说 ， 除 非 E 属 于 L， 否 则 EE 不 属于 L*。 


TEST 
TO 


图 3-6 语言 上 的 运算 的 定义 


令 L 表 示 字 母 的 集合 {A，B，..，Z，a，b，..，z}， 令 DD 表示 数位 的 

合 {06，14，...，9}。 我 们 可 以 用 两 种 不 同 但 等 价 的 方式 来 考虑 L 和 DDD。 一 
种 方法 是 将 L 看 成 是 大 、 小 写字 母 组 成 的 字母 表 ， 将 了 DD 看 成 是 10 个 数位 
组 成 的 字母 表 。 男 一 种 方法 是 将 L 和 DD 看 作 语 言 ， 它 们 的 所 有 上 串 的 长 度 
都 为 一 。 下 面 是 一 些 根据 图 3-6 中 的 运算 符 从 L 和 DD 构造 得 到 的 新 语言 : 


1) LUD 是 字母 和 数位 的 集合 一 一 严格 地 讲 ， 这 个 语言 包含 62 个 长 
度 为 1 的 串 ， 每 个 串 是 一 个 字母 或 一 个 数位 。 


2) LD 是 包含 520 个 长 度 为 2 的 串 的 集合 ， 每 个 串 都 是 一 个 字母 跟 一 
个 数位 。 


3) L4 是 所 有 由 四 个 字母 构成 的 串 的 集合 。 
4) 工 是 所 有 由 字母 构成 的 串 的 集合 ， 包 括 空 串 E 。 
5) L (LUD) 是 所 有 以 字母 开头 的 ， 由 字母 和 数位 组 成 的 串 的 集 























I> 


6) D! 是 由 一 个 或 多 个 数位 构成 的 串 的 集合 。 


3.3.3 ”正则 表达 式 





假设 我 们 要 描述 C 语 言 的 所 有 合法 标识 符 的 集合 。 它 差不多 就 是 例 
3.3 的 第 5 项 所 定义 的 语言 ， 唯 一 的 不 同 是 C 的 标识 符 中 可 以 包括 下 划 


线 。 


在 例 3.3 中 ， 我 们 可 以 首先 给 出 字母 和 数位 集合 的 名 字 ， 然 后 使 用 
并 、 连 接 和 闭 包 这 些 运算 符 来 描述 标识 符 。 这 种 处 理 方法 非常 有 用 。 因 
此 ， 人 们 第 凋 使 用 一 种 称 为 正则 表达 式 的 表示 方法 来 描述 语言 。 正 则 表 
达 陈 可 以 描述 所 有 通过 对 茶 个 字母 表 上 的 符号 应 用 这 些 运算 符 而 得 到 的 
语言 。 在 这 种 表示 法 中 ， 如 果 使 用 letter_ 来 表示 任 一 字母 或 下 划 线 ， 
用 digit 来 表示 数位 ， 那 么 可 以 使 用 如 下 的 正则 表达 陈 来 描述 对 应 于 C 语 


言 标识 符 的 语言 : 











letter (letter | digit) ™ 


上 式 中 的 竖 线 表示 并 运算 ， 括 号 用 于 把 子 表达 式 组 合 在 一 起 ， 星 号 表 
示 "“ 零 个 或 多 个 ?括号 中 表达 式 的 连接 ， 将 letter_ 和 表达 式 的 其 余部 分 并 
列表 示 连 接 运算 。 


正则 表达 式 可 以 由 较 小 的 正则 表达 式 按 照 如 下 规则 递归 地 构建 。 
个 正则 表达 式 r 表 示 一 个 语言 L(r) ， 这 个 语言 也 是 根据 r 的 子 表达 式 所 
表示 的 语言 递归 地 定义 的 。 下 面 的 规则 定义 了 某 个 字母 表 2 上 的 正则 表 
达 式 以 及 这 些 表达 式 所 表示 的 语言 。 

归纳 基础 : 如 下 两 个 规则 构成 了 归纳 基础 : 
1) 算是 一 个 正则 表达 式 ，L〈E) ={fE}， 即 该 语言 只 包含 空 串 。 
2) 如 果 a 是 2 上 的 一 个 符号 ， 那 么 a 是 一 个 正则 表达 式 ， 并 且 L (a) = 
{aj。 也 就 是 说 ， 这 个 语言 仅 包 含 一 个 长 度 为 1 的 符号 串 a。 请 注意 ， 根 
据 惯例 ， 我 们 通常 用 斜体 表示 符号 ， 粗 体 表示 它们 所 对 应 的 正则 表达 
式 。 山 


归纳 步骤 : 由 小 的 正则 表达 式 构造 较 大 的 正则 表达 式 的 步骤 有 四 个 
部 分 。 假 定 r 和 s 都 是 正则 表达 式 ， 分 别 表示 语言 L Cr) 和 L (s) ， 那 
么 : 











1) (TD | (5) 是 一 个 正则 表达 式 ， 表 示 语 言 L (TD UL (s) 。 
2) (Yr) 《8s》 是 一 个 正则 表达 区 ， 表示 语言 L (1) LL (8) 。 


3 让 PY 是 二 个 正则 表达 世家 不 证 证 (DY) 让 


4) (r) 是 一 个 正则 表达 式 ， 表 示 语 言 L(r) 。 最 后 这 个 规则 是 说 
在 表达 式 的 两 边 加 上 括号 并 不 影响 表达 式 所 表示 的 语言 。 


按照 上 面 的 定义 ， 正 则 表达 式 经 常会 包含 一 些 不 必要 的 括号 。 如 果 
我 们 采用 如 下 的 约定 ， 就 可 以 丢掉 一 些 括号 : 


1) 一 元 运算 符 * 具 有 最 高 的 优先 级 ， 并 且 是 左 结合 的 。 

2) 连接 具有 次 高 的 优先 级 ， 它 也 是 左 结合 的 。 

3) | 的 优先 级 最 低 ， 并 且 也 是 左 结合 的 。 

例如 ， 我 们 可 以 根据 这 个 约定 将 (a) | 〈 (b)“”(c) ) 改写 


为 alb c。 这 两 个 表达 式 都 表示 同样 的 串 集合 ， 其 中 的 元 素 要 么 是 单个 
a， 要 么 是 由 0 个 或 多 个 b 后 面 再 跟 一 个 c 组 成 的 串 。 


令 2-{fa，b} 
1) 正则 表达 式 alb 表 示 语 言 {a，b}。 


2) 正则 表达 式 (Calb) (alb〉 表 示 语 言 {aa，ab，ba，bb}， 即 在 字 
母 表 2 上 长 度 为 2 的 所 有 串 的 集合 。 可 表示 同样 语言 的 另 一 个 正则 表达 式 
是 aalablbalbb。 


3) 正则 表达 式 a 表示 所 有 由 零 个 或 多 个 a 组 成 的 串 的 集合 ， 即 


{E, a, aa, aad, ...}。 


4) 正则 表达 式 (alb)“ 表 示 由 零 个 或 多 个 a 或 b 的 实例 构成 的 串 的 集 
es 即 由 a 和 b 构 成 的 所 有 上 串 的 集合 { E， a, b, aa, ab, ba, bb, aaa, 
...}。 男 一 个 表示 相同 语言 的 正则 表达 式 是 (ab )“。 


5) 正则 表达 式 alab 表 示 语 言 {a，b，ab，aab，aaab，...}， 也 就 是 
串 a 和 以 b 结 尾 的 零 个 或 多 个 a 组 成 的 串 的 集合 。 


可 以 用 一 个 正则 表达 式 定 义 的 语言 叫做 正则 集合 (regular set) 。 如 
果 两 个 正则 表达 式 r 和 s 表 示 同 样 的 语言 ， 则 称 r 和 s 等 价 (equivalent)， 














记 作 r=s。 例 如 ， (alb〉= (bla) 。 正 则 表达 式 遵 守 一 些 代 数 定律 ， 
个 定律 都 断言 两 个 具有 不 同形 式 的 表达 式 等 价 。 图 3-7 给 出 了 一 些 对 于 
任意 正则 表达 式 r、s 和 t 都 成 立 的 代数 定律 。 


| | 
这 了 是 可 区 有 本 
























r(s|t) =rs|rt; (slt)r = sr|tr | 连接 对 | 是 可 分 配 的 
人 


亲本 中 一 定 人 人。 
"有 


图 3-7 正则 表达 式 的 代数 定律 
3.3.4 正则 定义 


为 方便 表示 ， 我 们 可 能 希望 给 某 些 正 则 表达 式 命 名 ， 并 在 之 后 的 正 
则 表达 式 中 像 使 用 符号 一 样 使 用 这 些 名 字 。 如 果 2 是 基本 符号 的 集合 ， 
那么 一 个 正则 定义 〈regular definition) 是 具有 如 下 形式 的 定义 序列 : 
di on 


d — IT 


dm 


， 


每 个 di 都 是 一 个 新 符号 ， 它 们 都 不 在 2 中 ， 并 且 各 不 相同 。 
每 个 5 是 字母 表 2U{dj，d，.……，d 1} 上 的 正则 表达 式 。 








我 们 限制 每 个 nr 中 只 含有 2z 中 的 符号 和 在 它 之 前 定义 的 各 个 dj， 因 此 
避免 了 递归 定义 的 问题 ， 并 且 我 们 可 以 为 每 个 5 构造 出 只 包 舍 Z 中 符号 的 
正则 表达 式 。 我 们 可 以 首先 将 r。( 它 不 能 使 用 di 之 外 的 任何 d》 中 的 di 从 
换 为 rm， 然 后 再 将 rs 中 的 di 和 d> 丛 换 为 m 和 《和 将 换 之 后 的 ) r,， 依 此 类 
推 。 最 后 ， 我 们 将 m 中 的 di (Ci=1，2，.…，n-1) 替换 为 rn 的 经 替换 后 的 版 
本 ， 在 这 些 版 本 中 都 只 包含 z 中 的 符号 。 

C 语 言 的 标识 符 是 由 字母 、 数 字 和 下 划 线 组 成 的 串 。 下 面 是 C 标 


从 从 对 应 的 语言 的 一 个 正则 定义 。 我 们 将 按照 惯例 用 斜体 字 来 表示 正则 
定义 中 定义 的 符号 。 





letter. = AIlBl::.:|Z|a|lbl..……|z|- 
digt 一 0|11|…|9 
id — letter_ ( letter_ | digit )* 


( 整 型 或 浮 点 型 ) 无 符 写 数 是 形 如 5280、9.91234、6.336E4 
或 1.89E-4 的 串 。 下 面 的 正则 定义 给 出 了 这 类 符 写 串 的 精确 规约 : 


digit — 0|1|:.……|9 
digits — digit digit” 
optionalFraction 一 . digits|E 
optionalErponent 一 (E(+|-|e) digits)|e 
number — digits optionalFraction optionalErponent 





在 这 个 定义 中 ，optionalFraction 要 么 是 空 串 ， 要 么 是 小 数 点 后 再 跟 
一 个 或 多 个 数位 。optionalExponent 如 果 不 是 空 串 ， 就 是 字母 E 后 跟随 一 
个 可 选 的 + 号 或 -号 ， 再 跟 上 一 个 或 多 个 数位 。 请 注意 ， 小 数 点 后 至 少 要 
跟 一 个 数位 ， 所 以 number 和 1. 不 匹配 ， 但 和 1.0 匹 配 。 





3.3.5 ”正则 表达 式 的 扩展 


目 从 Kleene 在 20 世 纪 50 年 代 提 出 了 市 有 基本 运算 和 从 并、 连接 和 
Kleene 闭 包 的 正则 表达 式 之 后 ， 已 经 出 现 了 很 多 种 针对 正则 表达 式 的 扩 
展 ， 它 们 被 用 来 增强 正则 表达 式 描述 串 模 式 的 能 力 。 在 这 里 ， 我 们 介绍 














的 一 些 最 早出 现在 像 Lex 这 样 的 Unix 实 用 程序 中 的 扩展 表示 法 。 这 些 扩 
展 表 示 法 在 词法 分 析 需 的 规约 中 非常 有 用 。 本 章 的 参考 文献 中 包含 了 一 
个 对 当今 仍 在 使 用 的 正则 表达 式 变 体 的 讨论 。 


1) 一 个 或 多 个 实例 。 单 目 后 级 运算 和 从 + 表示 一 个 正则 表达 式 及 其 语 
言 的 正 财 包 。 也 束 是 说 ， 如 果 r 是 一 个 正则 表达 式 ， 那 么 “〈r) * 就 表示 语 
言 (L Cr) )“。 运 算 符 + 和 运算 符 * 具 有 同样 的 优先 级 和 结合 性 。 两 个 
2 的 代数 定律 r=r'|E 和 上 =rr =rr 说 明了 Kleene 闭 包 * 和 正 闭 包 之 间 的 


2) 零 个 或 一 个 实例 。 单 目 后 缀 运算 符 ? 的 意思 0 个 出 
现 ”。 也 就 是 说 ，r? 等 价 于 fr|E ， 换 句 话 说 ，L (r? =L (r) ULE}。 
运算 符 ? 与 运算 符 + 和 运算 符 * 具 有 同样 的 优先 级 和 人 


3) 字符 类 。 一 个 正则 表达 式 ajla|...|au《〈 其 中 a 是 字母 表 中 的 各 个 
符号 ) 可 以 缩写 为 Lalas...an」 。 更 重要 的 是 ， 当 al，a，.…，an 形 成 一 
个 逻辑 上 连续 的 序列 时 ， 比 如 连 短 人 小 写字 母 或 数位 时 ， 我 
们 可 以 把 它们 表示 成 ai-al。 也 就 是 说 ， 只 写 出 第 一 个 和 最 后 一 个 符号 ， 
pol 因此 ， [Labcj] 是 alblc 的 缩写 ， [La-zj] 是 alb|...|z 的 
缩写 。 


根据 这 些 缩写 表示 法 ， 我 们 可 以 将 例 3.5 中 的 正则 定义 改写 为 : 




















letter. — |A-Za-zj 
digit — [0-9] 
dd — letter. ( letter:| digit )* 
例 3.6 的 正则 定义 可 以 简化 为 : 
digit 一 [0-9] 


digits — digitt 
number — digits(. digits)? (E [+-]? digits )? 


3.3.6 ”3.3 节 的 练习 





练习 3.3.1: 对 于 下 列 各 个 语言 ， 查 询 语 言 使 用 手册 以 确定 : (i) 
形成 各 语言 的 输入 字母 表 的 字符 集 分 别 是 什么 〈 不 包括 那些 只 能 出 现在 
字符 串 或 注释 中 的 字符 ) ? Gii) 各 语言 的 数字 常量 的 词法 形式 是 什 
么 ? 《iii) 各 语言 的 标识 符 的 词法 形式 是 什么 ? 


(1)C (2) C++ (3) C# (4) Fortran (5) Java (6) 
Lisp (7) SQL 


! 练习 3.3.2: 试 描述 下 列 正 则 表达 式 定 义 的 语言 : 








1) a (alb) “a 

20) 《Eb 

3) (alb) “a (alb) (alb) 

4) ababa ba 

! ! 5) (aalbb) ~ ( (ablba) (aalbb) ~ (ablba) (aalbb) “) 
练习 3.3.3: 试 说 明 在 一 个 长 度 为 np 的 字符 串 中 ， 分 别 有 多 少 个 

1) 前 绥 

2) 后 级 

3) 真 前 级 

1 了) 了 于 惠 

5 于 序列 

练习 3.3.4: 很 多 语言 都 是 大 小 写 敏感 的 〈case sensitive) ， 因 此 这 


些 语言 的 关键 字 只 能 有 一 种 写法 ， 摘 述 这 些 关 键 字 的 词素 的 正则 表达 式 
束 很 简单 。 但 是 ， 像 SQL 这 样 的 语言 是 大 小 写 不 敏感 的 (case 








insensitive ) ， 一 个 关键 字 既 可 以 大 写 ， 也 可 以 小 写 ， 还 可 以 大 小 写 混 
用 。 因 此 ，SQL 中 的 关键 字 sELECT 可 以 写成 select、Select 或 sElEcT。 请 
摘 述 出 如 何 用 正则 表达 式 来 表示 大 小 写 不 敏感 的 语言 中 的 关键 字 。 给 出 
描述 SQL 语言 中 的 关键 字 *select” 的 表达 式 ， 以 说 明 你 的 思想 。 

! 练习 3.3.5: 试 写 出 下 列 语言 的 正则 定义 : 

1) 包含 5 个 元 音 的 所 有 小 写字 母 串 ， 这 些 串 中 的 元 音 按 顺序 出 现 。 

2) 所 有 由 按 词 典 递增 序 排 列 的 小 写字 母 组 成 的 串 。 


3) 注释 ， 即 # 和 * 之 间 的 串 ， 且 串 中 没有 不 在 双 引 号 〈") 中 的 














*/。 


! ! 4) 所 有 不 重复 的 数位 组 成 的 串 。 提 示 : 首先 尝试 解决 只 含 
少量 数位 (比如 {0，1，2}) 的 数位 串 。 


! ! 5) 所 有 最 多 只 有 一 个 重复 数位 的 串 。 
! ! 6) 所 有 由 偶数 个 a 和 奇数 个 b 构 成 的 串 。 


7) 以 非 正 式 方式 表示 的 国际 象棋 的 步 法 的 集合 ， 如 p-k4 
或 kbpxqn。 


! ! 8) 所 有 由 a 和 b 组 成 且 不 含 子囊 abb 的 串 。 

9) 所 有 由 a 和 b 组 成 且 不 合子 序列 abb 的 串 。 

练习 3.3.6: 为 下 列 的 字符 集合 写 出 对 应 的 字符 类 。 

1) 英文 字母 的 前 10 个 字母 〈 从 a 一 j) ， 包 括 大 写 和 小 写 。 

2) 所 有 小 写 的 辅音 字母 的 集合 。 

3) 十 六 进 制 中 的 “数位 ”( 对 大 于 9 的 数位 ， 自 己 决 定 大 写 或 小 








= 
4) 可 以 出 现在 一 个 合法 的 英语 句子 后 面 的 字符 集 ( 比 如 感叹 


从 下 面 开 始 直到 练习 3.3.10《〈 含 ) 讨论 了 来 自 Lex 的 正则 表达 式 的 扩 
展 表示 方法 《我 们 将 在 3.5 节 中 讨论 这 个 词法 分 析 需 生成 工具 ) 。 
扩展 表示 方法 在 图 3-8 中 列 出 。 











字符 c 的 字面 值 
串 s 的 字面 值 


除 换行 符 以 外 的 任何 字符 


一 行 的 开始 
行 的 结尾 


字符 串 s 中 的 任何 一 个 字符 
不 在 串 s 中 的 任何 一 个 字符 
和 了 匹配 的 零 个 或 多 个 串 连接 成 的 串 
和 ?匹配 的 一 个 或 多 个 串 连 接 成 的 串 


零 个 或 一 个 了 


最 少 m 个 ， 最 多 nn 个 7 的 重复 出 现 


71 后 加 上 72 
1 或 72 


与 了 相同 


图 3-8 Lex 的 正则 表达 式 


单个 非 运算 符 字符 c 


后 面 跟 有 72 时 的 71 






















a{1,5} 
ab 
alb 
(alb) 
abc/123 









这 些 


练习 3.3.7: 请 注意 这 些 正则 表达 式 中 的 下 列 字 符 〈 称 为 运算 符 字 
符 ) 都 具有 特殊 的 含义 : 


人 





如 由 想 要 使 得 这 些 特殊 字符 在 一 个 串 中 表示 它们 上 自 喘 ， 束 必须 取消 
它们 的 特殊 含义 。 我 们 将 它们 放 在 一 个 长 度 大 于 等 于 1 且 加 上 双 引 号 的 
串 中 就 可 以 取消 特殊 含义 。 例 如 ， 正 则 表达 式 “**” 和 字符 串 ** 史 配 。 我 


们 也 可 以 在 一 个 运算 








符 字 符 前 加 一 个 反 斜 线 ， 得 到 这 个 字符 的 字面 含 


义 。 那 么 ， 正 则 表达 式 w\W* 也 和 串 ** 匹 配 。 请 写 出 一 个 和 字符 串 \ 匹 配 


的 正则 表达 式 。 


练习 3.3.8: 在 Lex 中 ， 补 集 字 符 类 (complemented character class ) 


代表 该 字符 类 中 列 出 的 字符 之 外 的 所 有 字符 。 我 们 将 ^ 放 在 开头 来 表示 
一 个 补 集 字符 类 。 除 非 ^ 在 该 字符 类 内 列 出 ， 否 则 这 个 字符 不 在 被 取 补 
的 字符 类 中 。 因 此 ， [^A-za-z] 匹配 所 有 不 是 大 小 写字 母 的 字符 ， 
[LAW] 匹配 除 ^《 以 及 换行 符 ， 因 为 它 不 在 任何 字符 类 中 ) 之 外 的 任何 
字符 。 试 证 明 : 对 于 每 个 带 有 补 集 字 符 类 的 正则 表达 式 ， 都 存在 一 个 等 
价 的 不 含 补 集 字符 类 的 正则 表达 式 。 


! 练习 3.3.9: 正则 表达 式 rftm，n}j 和 模式 r 的 mm 到 n 次 重复 出 现 相 匹 
配 。 例 如 ，af1，5} 和 由 1 一 5 个 a 组 成 的 串 匹 配 。 试 证 明 : 对 于 每 一 个 包 
合 这 种 形式 的 重复 运算 符 的 正则 表达 式 ， 都 存在 一 个 等 价 的 不 包含 重复 
运算 符 的 正则 表达 式 。 


! 练习 3.3.10: 运算 符 ^ 匹 配 一 行 的 最 堪 端 ， $ 匹 配 一 行 的 最 右 端 。 
运算 符 ^ 也 被 用 作 补 集 字 符 闫 的 首 字 符 ， 但 是 通过 上 下 文 总 是 能 够 确定 
它 的 含义 。 例 如 ，^ [Aaeiou] *$ 匹 配 任 何 一 个 不 包含 小 写 元 音字 符 的 
人 












































1) 你 怎样 判断 ^ 到 底 表示 哪 一 个 意思 ? 


2) 是 否 总 是 能 够 将 一 个 包括 ^ 和 $ 运 算 符 的 正则 表达 式 蔡 换 为 一 个 
等 价 的 不 包含 这 些 运算 符 的 正则 表达 式 ? 


! 练习 3.3.11: UNIX 的 shell 命 令 sh 在 文件 名 表达 式 中 使 用 图 3-9 中 的 
运算 符 来 描述 文件 名 的 集合 。 例 如 ， 文 件 名 表达 式 *.o 和 所 有 以 .o 结 束 
的 文件 名 匹配 ; sort1.? 和 所 有 形 如 sort1.c 的 文件 名 匹配， 其 中 c 可 以 
是 任何 字符 。 试 问 如 何 使 用 只 包含 并 、 连 接 和 闭 包 运算 符 的 正则 表达 式 
来 表示 sh 文件 名 表达 式 ? 


ne 串 s 的 字面 值 
字符 c 的 字面 值 


任何 串 *.O 
任何 字符 sort1.? 
s 中 的 确 任 何 字 符 sort1. [cso] 




















图 3-9 ”shel 1 命令 sh 使 用 的 文件 名 表达 式 








! 练习 3.3.12: SQL 语言 支持 一 种 不 成 熟 的 模式 描述 方式 ， 其 中 有 
两 个 具有 特殊 含义 的 字符 ， 下划线 〈(_) 表示 任意 一 个 字符 ， 百 分 号 % 
表示 包含 0 个 或 多 个 字符 的 串 。 此 外 ， 程 序 员 还 可 以 将 任意 一 个 字符 
(比如 e》 定 义 为 转 义 字符 。 那 么 ， 在 _、% 或 者 另 一 个 e 之 前 加 上 一 个 
e， 就 使 得 这 个 字符 只 表示 它 的 字面 值 。 假 设 我 们 已 经 知道 哪个 字符 是 
转 义 字符 ， 说 明 如 何 将 任意 SQL 模式 表示 为 一 个 正则 表达 式 。 








3.4 词法 单元 的 识别 








_ 士 一 节 介 绍 了 如 何 使 用 正则 表达 式 来 表示 一 个 模式 。 现 在 ， 我 们 必 
须 学 习 如 何 根据 各 个 需要 识别 的 词法 单元 的 模式 来 构造 出 一 段 代 码 。 这 
段 代 码 能 够 检查 输入 字符 事 ， 并 在 输入 的 前 缀 中 找 出 一 个 和 茶 个 模 陈 匹 
配 的 词素 。 我 们 的 讨论 将 围 经 下 面 的 例子 展开 。 


WE 图 3-10 的 文法 片段 描述 了 分 支 语句 和 条 件 表达 式 的 一 种 简单 形 
式 。 人 这 个 语法 和 Pascal 语 言 的 语法 类 似 ， 它 的 then 关 键 字 显 式 地 出 现在 
条 件 表达 式 的 后 面 。 对 于 relop， 我 们 使 用 Pascal 或 SQL 语言 中 的 比较 运 
算 符 ， 其 中 一 表示 “相等 "，<> 表 示 “ 不 相等 "， 因 为 它们 呈现 了 一 种 有 意 
思 的 词素 结构 。 














if ezpr then stmt 
if expr then stmt else stmt 


€ 
term relop term 


term, 
id 
number 





图 3-10 分支 语 名 的 文法 


在 考虑 词法 分 析 器 时 ， 文 法 的 终结 符 写 ， 包 括 if、then、else、 
relop、id 及 number， 都 是 词法 单元 的 名 字 。 这 些 词法 单元 的 模式 使 用 
图 3-11 中 的 正则 定义 来 描述 。 其 中 id 和 number 的 模式 和 我 们 之 前 在 例 3.7 
中 看 到 的 模式 类 似 。 





digit 
digits 
number 
letter 
id 

if 

then 
else 
relop 


[0-9] 
digitt 

digits (. digits)? (E [+-]? digits )? 
[A-2a-2z| 

letter ( letter | digit )* 

if 

then 

else 

<|>|<=|>=|=|<> 


一 全 
一 
一 一 
一 人 
一 
一 
本 
一 信 
一 





图 3-11 例 3. 8 中 词法 单元 的 模式 


对 这 个 语言 ， 词 法 分 析 器 将 识别 关键 字 证 、then、else 以 及 和 relop、 
id 和 num 的 模式 匹配 的 词素 。 为 了 简化 问题 ， 我 们 做 出 如 下 的 常见 假 
设 : 关键 字 也 是 保留 字 。 也 就 是 次， 它们 不 是 标识 符 ， 虽 然 它 们 的 词素 
和 标识 符 的 模式 匹配 。 


此 外 ， 我 们 还 让 词法 分 析 器 负责 消除 空白 符 ， 方 法 是 让 它 识别 如 下 
定义 的 “词法 单元 ”ws。 








ws (blank | tab | newline )+ 














这 里 ，blank、tab 及 newline 是 用 于 表示 具有 同样 名 字 的 ASCII 字 符 
的 抽象 符号 。 词 法 单元 ws 同 其 他 的 词法 单元 的 不 同 之 处 在 于 : 当 我 们 识 
别 到 ws 时 ， 我 们 并 不 将 它 返 回 给 语法 分 析 器 ， 而 是 从 这 个 空白 之 后 的 字 
符 开 始 继续 进行 词法 分 析 。 返 回 给 语法 分 析 器 的 是 下 一 个 词法 单元 。 


图 3-12 总 结 了 词法 分 析 器 的 目标 。 对 于 各 个 词素 或 词素 的 集合 ， 该 
表 显 示 了 应 该 将 哪个 词法 单元 名 返回 给 语法 分 析 器 ， 以 及 按照 3.1.3 节 中 
的 介绍 ， 应 该 返回 什么 属性 值 。 请 注意 ， 对 于 其 中 的 6 个 关系 运算 符 ， 
符号 常量 LT、LE 等 被 当 作 属 性 值 返回 ， 其 目的 是 指明 我 们 发 现 的 是 词法 
单元 relop 的 哪个 实例 。 找 到 的 运算 符 将 影响 编译 器 输出 的 代码 。 





Any ws 一 

if if 
then then 
else else 


Any id id 指 问 符 号 表 条 目的 指针 


Any number number 向 符号 表 条 目的 指针 
< relop LT 
<= relop LE 
relop EQ 
relop NE 
relop GT 
relop GE 





图 3-12 ”词法 单元 、 它 们 的 模式 以 及 属性 值 


3.4.1 ”状态 转换 图 


作为 构造 词法 分 析 器 的 一 个 中 间 步 台 ， 我 们 首先 将 模式 转换 成 具有 
特定 风格 的 流 图 ， 称 为 “状态 转换 图 ”。 在 本 节 中 ， 我 们 用 手工 方式 将 正 
则 表达 式 表 示 的 模式 转化 为 状态 转换 图 ， 在 3.6 节 中 ， 我 们 将 看 到 可 以 
使 用 自动 化 的 方法 根据 一 组 正则 表达 式 集合 构造 出 状态 转换 图 。 


状态 转换 图 (transition diagram) 有 一 组 被 称 为 “状态 ”(state〉 的 结 
点 或 圆圈。 词法 分 析 器 在 扫描 输入 串 的 过 程 中 寻找 和 某 个 模式 匹配 的 词 
素 ， 而 转换 图 中 的 每 个 状态 代表 一 个 可 能 在 这 个 过 程 中 出 现 的 情况 。 我 
们 可 以 将 一 个 状态 看 作 是 对 我 们 已 经 看 到 的 位 于 lexemeBegin 指 针 和 
J 的 字符 的 总 结 ， 它 包含 了 我 们 在 进行 词法 分 析 时 需要 的 
部 信息 。 


状态 图 中 的 边 (edge〉 从 图 的 一 个 状态 指 癌 为 一 个 状态 。 每 条 边 的 
标号 包含 了 一 个 或 多 个 符号 。 如 宁 我 们 处 于 某 个 状态 sS， 并 且 下 一 个 输 
入 符号 是 a， 我 们 就 会 寻找 一 条 从 s 离 开 且 标号 为 a 的 边 〈 该 边 的 标号 中 
可 能 还 包括 其 他 符号 ) 。 如 果 我 们 找到 了 这 样 的 一 条 边 ， 束 将 forward 指 
针 前 移 ， 并 进入 状态 转换 图 中 该 边 所 指 的 状态 。 我 们 假设 所 有 状态 转换 








图 都 是 确定 的 ， 这 意味 着 对 于 任何 一 个 给 定 的 状态 和 任何 一 个 给 定 的 符 
， 最 多 只 有 一 条 从 该 状态 离开 的 边 的 标号 包含 该 从 写 。 从 3.5 节 开 
始 ， 我 们 将 放松 对 确定 性 的 要 求 ， 令 词法 分 析 才 的 设计 者 更 加 容易 完成 
， 但 同时 提高 了 对 实现 者 的 技巧 要 求 。 一 些 关 于 状态 转换 图 的 重要 

2 定 DT 下 : 


1) 某 些 状态 称 为 接受 状态 或 最 终 状 态 。 这 些 状 态 表 明 已 经 找到 了 
一 个 词 闵 ， 虽 然 实际 的 词素 可 能 并 不 包括 lexemeBegin 指 针 和 forward 指 
针 之 间 的 所 有 字符 。 我 们 用 双 层 的 圈 来 表示 一 个 接受 状态 ， 并 且 如 果 议 
状态 要 执行 一 个 动作 的 话 一 一 通常 是 同 语 法 分 析 器 返回 一 个 词法 单元 和 
相关 属性 值 一 一 我 们 将 把 这 个 动作 附加 到 该 接受 状态 上 。 


2) 另外 ， 如 果 需 要 将 forward 回 退 一 个 位 置 “ 即 相应 的 词素 并 不 包 
舍 那 个 在 最 后 一 步 使 我 们 到 达 接 受 状态 的 符号 ) ， 那 么 我 们 将 在 该 接受 
状态 的 附近 加 上 一 个 *。 我 们 的 例子 都 不 需要 将 forward 指 针 回 退 多 个 位 
置 ， 但 万 一 出 现 这 种 情况 ， 我 们 将 为 接受 状态 附加 相应 数目 的 *。 


3) 有 一 个 状态 被 指定 为 开始 状态 ， 也 称 初 始 状态 ， 该 状态 由 一 条 
没有 出 发 结 点 的 、 标 号 为 “start* 的 边 指明 。 在 读 入 任何 输入 符号 之 前 ， 
状态 转换 图 总 是 位 于 它 的 开始 状态 。 


FE 素 】 图 3-13 给 出 了 能 够 识别 所 有 与 词法 单元 relop 匹 配 的 词素 的 状态 
负 图 。 我 们 从 初始 状态 0 开始 。 如 果 我 们 看 到 的 第 一 个 输入 符号 是 <， 
那么 在 所 有 与 relop 模 式 匹 配 的 词素 中 ， 我 们 只 能 选择 <、<> 或 <=。 因 此 
我 们 进入 状态 1 并 查看 下 一 个 字符 。 如 果 这 个 字符 是 = 二， 我 们 识别 出 词 
素 <=， 进 入 状态 2 并 返回 属性 值 为 LE 的 relop 词 法 单元 。 其 中 的 符号 常量 
LE 代表 了 这 个 具体 的 比较 运算 符 。 如 果 在 状态 1， 下 一 个 字符 是 >， 那 么 
我 们 就 会 得 到 词素 <>， 从 而 进入 状态 3 并 返回 一 个 词法 单元 ， 表 明 已 经 
找到 一 个 不 等 运算 符 。 而 对 于 其 他 字符 ， 识 别 得 到 的 词素 是 <， 我 们 进 
入 状态 4 并 辐 语 法 分 析 器 返回 这 个 信息 。 请 注意 ， 状 态 4 有 一 个 * 写 ， 说 

明 我 们 必须 将 输入 回 退 一 个 位 置 。 






































start < 
return( relop, LE) 


CO 一 -的 
> 
return ( relop, NE) 


米 


other 
return( relop, LT) 
@ return( relop EQ) 









return ( relop, GE) 


米 
other return( relop , GT) 


图 3-13 词法 单元 relop 的 状态 转换 图 


男 一 方面 ， 如 果 在 状态 0 时 我 们 看 到 的 第 一 个 字符 是 二 ， 那 么 这 个 
字符 必定 是 要 识别 的 词素 。 我 们 立即 从 状态 5 返回 这 个 信息 。 其 余 的 可 
能 性 是 第 一 个 字符 为 > 的 情况 。 那 么 我 们 应 该 进入 状态 6， 并 根据 下 一 字 
符 确 定 词素 是 >=《〈 如 采 我 们 看 到 下 一 个 字符 为 =) 还 是 >〈 对 于 任何 其 
他 字符 ) 。 注 意 ， 如 果 在 状态 0 时 我 们 看 到 的 是 不 同 于 <、= 或 > 的 字符 ， 
因此 这 个 状态 转换 图 将 不 会 被 使 


3.4.2 ”保留 字 和 标识 符 的 识别 


识别 关键 字 及 标识 符 时 有 一 个 问题 要 解决 。 通 常 ， 像 1f 或 then 这 样 
的 关键 字 古 被 保留 的 《在 我 们 正在 使 用 的 例子 中 就 是 如 此 ) ， 因 此 虽然 
它们 看 起 来 很 像 标识 符 ， 但 它们 不 是 标识 符 。 因 此 ， 尽 管 我 们 通常 使 用 
如 图 3-14 所 示 的 状态 转换 图 来 寻找 标识 符 的 词素 ， 但 这 个 图 也 可 以 识别 
出 连续 使 用 的 例子 中 的 关键 字 if、then 及 else。 





letter or digit 


Start letter C) other 
return (getToken( ), installID ()) 


图 3-14 id 和 关键 字 的 状态 转换 图 
我 们 可 以 使 用 两 种 方法 来 处 理 那 些 看 起 来 很 像 标识 符 的 保留 字 : 


1) 初始 化 时 就 将 各 个 保留 字 填 入 符号 表 中 。 符 号 表 条 目的 茶 个 字 
段 会 指明 这 些 串 并 不 是 普通 的 标识 符 ， 并 指出 它们 所 代表 的 词法 单元 。 
我 们 已 经 假设 图 3-14 中 使 用 了 这 种 方法 。 当 我 们 找到 一 个 标识 符 时 ， 如 
果 该 标识 符 尚 未 出 现在 符号 表 中 ， 残 会 调用 installID 将 此 标识 符 放 入 符 
号 表 中 ， 并 返回 一 个 指针 ， 指 向 这 个 刚 找到 的 词 又 所 对 应 的 符号 表 条 
目 。 当 然 ， 任 何在 词法 分 析 时 不 在 符号 表 中 的 标识 符 部 不 可 能 是 一 个 保 
留守 ， 因 此 它 的 词法 单元 是 id。 函 数 getToken 但 看 对 应 于 刚 找到 的 词素 
的 符号 表 条 目 ， 并 根据 符号 表 中 的 信息 返回 该 词素 所 代表 的 词法 单元 名 
a 0 
法 单元 。 


2) 为 每 个 关键 字 建立 单独 的 状态 转换 图 。 图 3-15 是 关键 字 then 的 
个 例子 。 请 注意 ， 这 样 的 状态 转换 图 包含 的 状态 表示 看 到 该 关键 字 的 
各 个 后 续 字母 后 的 情况 ， 最 后 是 一 个 " 非 字母 或 数字 ”的 测试 ， 也 就 是 检 
查 后 面 是 否 为 某 个 不 可 能 成 为 标识 符 一 部 分 的 字符 。 有 必要 检查 该 标识 
符 是 否 结 束 ， 盏 则 在 磁 到 词素 像 thenextvalue 这 样 以 then 为 前 级 的 id 词 
法 单元 时 ， 我 们 可 能 会 错误 地 返回 词法 单元 then。 如 果 采 用 这 个 方法 ， 
我 们 必须 设 定 词 法 单元 之 间 的 优先 级 ， 使 得 当 一 个 词 系 同时 匹配 庆 的 模 
式 和 关键 字 的 模式 时 ， 优 先 识别 保留 字 词法 单元 ， 而 不 是 id 词法 单元 。 
我 们 并 没有 在 例子 中 使 用 这 个 方法 ， 这 也 是 我 们 没有 对 图 3-15 中 的 状态 
进行 编号 的 原因 。 


start 纪 h e n nonlet/dig 
O—0O——O—-O0—O~ OO’ 


图 3-15 假想 的 关键 字 then 的 状态 转换 图 















































3.4.3 ”完成 我 们 的 例子 


我 们 在 图 3-14 中 看 到 ，id 的 状态 转换 图 有 一 个 简单 的 结构 。 由 状态 9 
开始 ， 它 检 醋 被 识别 的 词素 是 否 以 一 个 字母 开头 ， 如 采 是 的 话 进 入 状态 
10。 只 要 接 下 来 的 输入 包含 字母 或 数位 ， 我 们 束 一 直 停 留 在 状态 10。 当 
我 们 第 一 次 遇 到 不 是 字母 或 数位 的 其 他 任何 字符 时 ， 便 转 入 状态 11 并 接 
受 刚 刚 找到 的 词素 。 因 为 最 后 一 个 字符 并 不 是 标识 符 的 一 部 分 ， 我 们 必 
须 将 输入 回 退 一 个 位 置 ， 并 且 如 3.4.2 节 所 讨论 的 那样 ， 我 们 将 已 经 找到 
的 标识 符 加 入 到 符号 表 中 ， 并 判断 我 们 得 到 的 究竟 是 一 个 关键 字 还 是 一 
个 真正 的 标识 符 。 


图 3-16 显 示 了 词法 单元 number 的 状态 转换 图 ， 它 是 我 们 至 今 为 止 
看 到 的 最 复杂 的 状态 转换 图 。 从 状态 12 开 始 ， 如 果 我 们 看 到 一 个 数位 ， 
束 转 入 状态 13。 在 该 状态 ， 我 们 可 以 读 入 任意 数量 的 其 他 数位 。 然 而 ， 
如 果 我 们 看 到 了 一 个 不 是 数位 、 不 是 小 数 点 ， 也 不 是 E 的 其 他 字符 ， 束 
得 到 了 一 个 整数 形式 的 数字 ， 如 123。 这 种 情形 在 进入 状态 20 时 进行 处 
理 ， 我 们 在 该 状态 返回 词法 单元 number 以 及 一 个 指向 常量 表 条 目的 指 
针 ， 刚 刚 找 到 的 词素 便 放 在 这 个 常量 表 条 目 中 。 这 些 机 制 并 没有 在 这 个 
转换 图 中 显示 出 来 ， 但 它们 和 我 们 处 理 标 识 符 的 方法 相似 。 




















digit digit digit 


start 全 digit digit E 个 os 


digit 
other * other * 


图 3-16 无 符号 数字 的 状态 转换 图 


如 果 我 们 在 状态 13 看 到 的 是 一 个 小 数 点 ， 那 么 我 们 就 看 到 一 个 “可 
选 的 小 数 部 分 ”。 于 是 ， 进 入 状态 14， 并 寻找 一 个 或 多 个 更 多 的 数位 ， 
状态 15 束 被 用 于 此 目的 。 如 果 我 们 看 到 一 个 E， 那 么 我 们 残 看 到 了 一 
个 “可 选 的 指数 部 分 ”， 它 的 识别 任务 由 状态 16 一 19 完 成 。 如 果 我 们 在 状 
态 15 看 到 的 是 不 同 于 E 和 数位 的 其 他 字符 ， 那 么 我 们 就 到 达 了 小 数 部 分 
的 结尾 ， 这 个 数字 没有 指数 部 分 ， 我 们 将 通过 状态 21 返 回 刚 刚 找到 的 词 


为、\ 9 





最 后 一 个 状态 转换 图 显示 在 图 3-17 中 ， 它 用 于 识别 空白 符 。 在 该 图 
中 ， 我 们 寻找 一 个 或 多 个 空白 字符 ， 在 图 中 用 delim 表 示 。 上 典型 的 空 日 
字符 有 空格 、 制 表 符 、 换 行 符 ， 有 可 能 包括 那些 根据 语言 设计 不 可 能 
现在 任何 词法 单元 中 的 字符 。 





delim 


start 四 delim (3 other @) 了 


图 3-17 ”空白 符 的 状态 转换 图 


注意 ， 我 们 在 状态 24 中 找到 了 一 个 连续 的 空白 字符 组 成 的 块 ， 且 后 
面 还 跟随 一 个 非 空白 字符 。 我 们 将 输入 回 退 到 这 个 非 空白 符 的 开头 ， 但 
我 们 并 不 向 语法 分 析 器 返回 任何 词法 单元 。 相 反 ， 我 们 必须 在 这 个 空白 
符 之 后 再 次 启动 词法 分 析 过 程 。 








3.4.4 ”基于 状态 转换 图 的 词法 分 析 旧 的 体系 结构 


有 几 种 方法 可 以 根据 一 组 状态 转换 图 构造 出 一 个 词法 分 析 器 。 不 管 
整体 的 策略 是 什么 ， 每 个 状态 总 是 对 应 于 一 段 代 码 。 我 们 可 以 想象 有 一 
个 变量 state 保 存 了 一 个 状态 转换 图 的 当前 状态 的 编号 。 有 一 个 switch 语 
句 根据 state 的 值 将 我 们 转 到 对 应 于 各 个 可 能 状态 的 相应 代码 段 ， 我 们 
可 以 在 那里 找到 该 状态 需要 执行 的 动作 。 一 个 状态 的 代码 本 身 常常 也 是 
一 条 switch 语 句 或 多 路 分 支 语 句 。 这 个 语句 读 入 并 检查 下 一 个 输入 字 
符 ， 由 此 确定 下 一 个 状态 。 


在 图 3-18 中 ， 我 们 可 以 看 到 getRelop() 方 法 的 一 个 概述 。 它 是 
一 个 C++ 函数 ， 其 任务 是 模拟 图 3-13 中 的 状态 转换 图 ， 并 返回 一 个 
TOKEN 类 型 的 对 象 。 该 对 象 由 一 个 词法 单元 名 在 该 例 中 必定 
是 relop〉 和 一 个 属性 值 〈 在 该 例 中 是 6 个 比较 运算 符 之 一 的 编码 ) 组 
成 。 函 数 getRelop() 首 先 创建 一 个 新 的 对 象 retToken， 并 将 该 对 象 的 第 
一 个 分 量 初始 化 为 RELoP， 即 词法 单元 relop 的 编码 。 


在 case 0 中 ， 我 们 可 以 看 到 一 个 典型 的 状态 行为 。 函 数 nextchar() 
从 输入 中 获取 下 一 个 字符 ， 并 将 它 赋 给 局 部 变量 c。 然 后 我 们 检查 c 是 否 
为 我 们 期 望 找到 的 三 个 字符 ， 并 在 每 种 情况 下 根据 图 3-13 所 示 的 状态 转 
换 图 完成 状态 转换 。 例 如 ， 如 果 下 一 输入 字符 是 =， 那 么 就 转换 到 状态 
D。 














如 果 下 一 个 输入 字符 不 是 某 个 比较 运算 符 的 首 字符 ，getRelop() 就 


会 调用 函数 fail()。 函 数 fail() 的 具体 操作 依赖 于 词法 分 析 器 的 全 局 错 
误 恢 复 策略 。 它 应 该 将 forward 指 针 重 置 为 lexemeBegin 的 值 ， 使 得 我 们 
可 以 使 用 男 一 个 状态 转换 图 从 尚未 处 理 的 输入 部 分 的 真实 开始 位 置 开 始 
识别 。 然 后 ， 它 还 需要 将 变量 state 的 值 改 为 另 一 状态 转换 图 的 初始 状 
态 ， 该 转换 图 将 寻找 另 一 个 词法 单元 。 在 另 一 种 情况 下 ， 如 果 所 有 的 转 
换 图 都 已 经 用 过 ， 则 fail() 可 以 启动 一 个 错误 纠正 步骤 ， 按 照 3.1.4 节 中 
讨论 的 方法 来 纠正 输入 并 找到 一 个 词素 。 


在 图 3-18 中 ， 我 们 还 展示 了 状态 8 的 行为 。 由 于 状态 8 带 有 一 个 * 
写 ， 我 们 必须 将 输入 指针 回 退 一 个 位 置 (也 就 是 把 c 放 回 输 入 流 ) 。 该 
任务 由 函数 retract() 完 成 。 因 为 状态 8 代表 了 对 词素 > 的 识别 ， 我 们 把 
返回 对 象 中 的 第 二 个 分 量 设 置 成 GT， 即 这 个 运算 符 的 编码 。 我 们 假设 
这 个 分 量 的 名 字 是 attribute。 











TOKEN getRelop() 
{ 


TOKEN retToken = new(RELOP); 
while(1) { /* repeat character processing until a return 
or failure occurs */ 
switch(state) { 
case 0: c = nextChar(); 


if (c== '<' ) state = 1; 

else if ( c == /=' ) state = 5; 

else if ( ¢c == ‘>’' ) state = 6; 

else fail(); /* lexeme is not a ‘relop */ 
break; 


case 8: retract(); 
retToken.attribute = GT; 
return(retToken); 





图 3-18 relop 的 转换 图 的 概要 实现 


为 了 在 适当 的 地 方 模拟 适当 的 状态 转换 图 ， 我 们 考虑 几 种 将 如 图 3- 
18 所 示 的 代码 集成 到 整个 词法 分 析 器 中 的 方法 。 

1) 我 们 可 以 让 词法 分 析 器 顺序 地 尝试 各 个 词法 单元 的 状态 转换 
图 。 然 后 ， 在 每 次 调用 例 3.10 中 的 函数 fail() 时 ， 它 重 置 forward 指 针 并 


局 动 下 一 个 状态 转换 图 。 这 个 方法 使 我 们 可 以 像 图 3-15 中 所 建议 的 那 
样 ， 为 各 个 关键 字 使 用 各 目的 状态 转换 图 。 我 们 只 需要 在 使 用 这 的 状态 
转换 图 之 前 使 用 这 些 关 键 字 的 转换 图 ， 束 可 以 使 得 关键 字 被 识别 为 保留 
= 


2) 我 们 可 以 “并 行 地 ”运行 各 个 状态 转换 图 ， 将 下 一 个 输入 字符 提 
供给 所 有 的 状态 转换 图 ， 并 使 得 每 个 状态 转换 图 作出 它 应 该 执行 的 转 
换 。 如 果 我 们 采用 这 个 策略 ， 束 必须 谨慎 地 解决 如 下 的 问题 : 一 个 状态 
转换 图 已 经 找到 了 一 个 与 它 的 模式 相 匹 配 的 词素 ， 但 另外 的 一 个 或 多 个 
状态 转换 图 仍然 可 以 继续 处 理 输入 。 解 决 这 个 问题 的 常见 策略 是 取 最 长 
的 和 某 个 模式 相 匹 配 的 输入 前 级 。 举 例 来 说 ， 访 规则 让 我 们 识别 出 标识 
从 thenext 而 不 是 关键 字 then， 识 别 出 -> 而 不 是 -。 


3) 有 一 个 更 好 的 方法 ， 也 是 我 们 将 在 下 面 各 节 中 采用 的 方法 ， 惑 
古 将 所 有 的 状态 转换 图 合并 为 一 个 图 。 我 们 允许 合并 后 的 状态 转换 图 尽 
量 读 取 输入 ， 直 到 不 存在 下 一 个 状态 为 止 ; 然 后 像 上 面 的 2 中 讨论 的 那 
样 取 最 长 的 和 茶 个 模式 匹配 的 最 长 词素 。 在 我 们 的 例子 中 ， 进 行 这 种 合 
并 很 简单 ， 因 为 没有 两 个 词法 单元 以 相同 的 字符 开头 。 也 就 是 将， 根据 
第 一 个 字符 就 可 以 知道 我 们 正在 寻找 的 是 哪个 词法 单元 。 因 此 ， 我 们 可 
以 直接 将 状态 0、9、12 及 22 合 并 成 一 个 开始 状态 ， 并 保持 其 他 转换 不 
变 。 但 一 般 而 言 ， 正 如 我 们 不 久 将 看 到 的 那样 ， 合 并 几 个 词法 单元 的 状 
态 转换 图 的 问题 会 更 加 复杂 。 











3.4.5 3.4 节 的 练习 


练习 3.4.1: 给 出 识别 练习 3.3.2 中 各 个 正则 表达 式 所 描述 的 语言 的 状 
态 转 换 图 。 


练习 3.4.2: 给 出 识别 练习 3.3.5 中 各 个 正则 表达 式 所 描述 的 语言 的 状 
态 转 换 图 。 


从 下 面 的 练习 开始 到 练习 3.4.12 介 绍 了 Aho-Corasick 算 法 。 访 算法 可 
以 在 文本 串 中 识别 一 组 关键 字 ， 所 需 时 间 和 文本 长 度 以 及 所 有 关键 字 的 
总 长 度 成 正比 。 该 算法 使 用 了 一 种 称 为 “trie” 的 特殊 形式 的 状态 转换 
图 。trie 是 一 个 树 型 结构 的 状态 转换 图 ， 从 一 个 结 点 到 它 的 各 个 子 结 点 
的 边 上 有 不 同 的 标号 。Trie 的 叶子 结 点 表示 识别 到 的 关键 字 。 


Knuth、Morris 和 Pratt 提 出 了 一 种 在 文本 串 中 识别 单个 关键 字 bib>.……. 
b, 的 算法 。 这 里 的 trie 是 一 个 包含 了 从 0~n 共 n+1 个 状态 的 状态 转换 图 。 
状态 0 是 初始 状态 ， 状 态 n 表 示 接 受 ， 也 就 是 上 友 现 关键 字 的 情形 。 从 0 到 
n-1 之 间 的 任意 一 个 状态 s 出 有 发， 存在 一 个 标号 为 b.,; 的 到 达 状 态 s+l1 的 转 
换 。 人 例如， 关键 字 ababaa 的 trie 树 为 : 


a b a b a a 
O00 Om On OO 
为 了 快速 处 理 文本 串 并 在 这 些 串 中 搜索 一 个 关键 字 ， 人 针对 关键 字 


bib>.…b, 以 及 该 关键 字 中 的 位 置 。( 对 应 于 关键 字 的 trie 中 的 状态 s》 定义 
失效 函数 f(s) ， 该 函数 的 计算 方法 如 图 3-19 所 示 。 














t=0; 
f(1)=0; 
for (os ly 
while (人 > 0 && bsri != bt)t = f (0); 
if (bs+1 == bet1) { 
(一 和 
f(st1)= 


} 
else f(s+1)=0; 





图 3-19 计算 关键 字 b1b?…b, 的 失效 函数 的 算法 


该 函数 的 目标 是 使 得 bjb,,..b; (s) 是 最 长 的 既是 b bb. 的 真 前 绥 
又 是 bib>.….bs 的 后 级 的 子 串 。f (s) 之 所 以 重要 ， 原 因 在 于 如 果 我 们 试 
图 用 一 个 文本 串 匹配 blb>.….ba， 并 且 我 们 已 经 匹配 了 前 s 个 位 置 ， 但 此 时 
匹配 失败 〈 也 束 是 说 文本 串 的 下 一 个 位 置 并 不 是 bi) ， 那 么 f(s) 束 
征 可 能 和 以 我 们 的 当前 位 置 为 结尾 的 文本 串 相 匹配 的 最 长 的 bijb.…….bn 的 
前 缀 。 当 然 ， 文 本 串 的 下 一 个 字符 必须 是 bf cs +1， 人 否则 仍然 有 问题 ， 
必须 考虑 一 个 更 短 的 前 绥 ， Rb (f(s) )。 





看 一 个 例子 ， 根 据 ababaa 构 造 的 trie 的 失效 函数 是 : 


ss 121314|5|6 





fls) 0011121311 








例如 ， 状 态 3 和 1 分 别 表示 前 级 aba 以 及 a。 因 为 a 是 最 长 的 既是 aba 的 真 前 
级 ， 同 时 也 是 aba 的 后 级 的 串 ， 因 此 f 〈3) =1。 同 样 ， 因 为 最 长 的 既 
古 ab 的 真 前 级 又 是 它 的 后 缀 的 字符 串 是 空 串 ， 因 此 f (2〉=0。 


练习 3.4.3: 构造 下 列 串 的 失效 函数 。 
1) abababaab 

2) aaaaaa 

3) abbaabb 


! 练习 3.4.4: 对 s 进 行 归纳 ， 证 明 图 3-19 的 算法 正确 地 计算 出 了 失 
效 函 数 。 


! ! 练习 3.4.5: 说 明 图 3-19 中 第 4 行 的 赋值 语句 t=f(t)》 最 多 被 执行 
n 次 。 进 而 说 明 整 个 算法 的 时 间 复 杂 上 度 是 O(n) ， 其 中 n 是 关键 字 的 长 
度 。 


计算 得 到 关键 字 bib>.…bn 的 失效 函数 之 后 ， 我 们 就 可 以 在 O (my) 时 
间 内 扫描 字符 串 aiaz...am 以 判断 该 关键 字 是 否 出 现在 其 中 。 图 3-20 中 所 
展示 的 算法 使 关键 字 沿 着 被 匹配 字符 串 滑 动 ， 不 断 尝试 将 关键 字 的 下 一 
个 字符 与 被 匹配 字符 串 的 下 一 个 字符 匹配 ， 逐 步 推进 。 如 果 在 匹配 了 s 
个 字符 后 无 法 继续 匹配 ， 那 么 该 算法 将 关键 字 “ 向 右 滑动 *s-f (s) 个 位 
置 ， 也 就 是 认为 只 有 该 关键 字 的 前 f(s) 个 字符 和 被 匹配 字符 串 匹 配 。 


练习 3.4.6: 应 用 KMP 算 法 判断 关键 字 ababaa 是 否 为 下 面 字 符 串 的 
串 : 























1) abababaab 
2) abababbaa 


! ! 练习 3.4.7: 说 明 图 3-20 中 的 算法 可 以 正确 地 指出 输入 关键 字 是 


否 为 一 个 给 定 字符 串 的 子 串 。 提 示 : 对 i 进 行 归 纳 。 说 明 对 于 所 有 的 i， 
在 第 四 行 运 行 后 s 的 值 是 那些 既是 a1a)...ai 的 后 级 又 是 该 关键 字 的 前 级 的 
字符 串 中 最 长 字符 串 的 长 度 。 





如 三 

for (i = 1;1i< m;it+) { 
while (s > 0 && ai != bs+1) s = f(s); 
证 (ai == bri1)'s =8+1; 


if (s == n) return “yes”; 


} 


return “no”; 





图 3-20 KMP 算 法 在 0 (mtn) 时 间 内 检测 字符 串 a1a2…an 中 是 否 包含 单个 关键 字 b1bz…bn 


! ! 练习 3.4.8: 假设 已 经 计算 得 到 函数 {有 旦 它 的 值 存储 在 一 个 以 s 为 
下 标的 数组 中 ， 说 明 图 3-20 中 算法 的 时 间 复 杂 度 为 O (m+n) 。 


练习 3.4.9: Fibonacci 字 符 串 的 定义 如 下 : 





1) .Si 一 bs。 

2) 87— a 

3) 当 k>2 时 ，sl=sl.jsl >。 

例如 ，ss=ab，ss=aba，ss=abaab。 
1) sn 的 长 度 是 多 少 ? 

2) 构造 se 的 失效 函数 。 

3) 构造 sj 的 失效 函数 。 


! ! 4) 说 明 任何 s, 的 失效 函数 都 可 以 被 表示 为 : f (1) =f (2) 
=0， 且 对 于 2<j<|lsl|，f 4j) =j-sk1， 其 中 k 是 使 得 |sjsj+1 的 最 大 的 整数 。 


! ! 5) 在 KMP 算 法 中 ， 当 我 们 试图 确定 关键 字 sk 和 是 否 出 现在 字符 
串 skt+i 中 时 ， 最 多 会 连续 多 少 次 调用 失效 函数 ? 


Aho 和 Corasick 对 KMP 算 法 进行 了 推广 ， 使 它 可 以 在 一 个 文本 串 中 
识别 一 个 关键 字 集 合 中 的 任何 关键 字 。 在 这 种 情况 下 ，trie 是 一 棵 真正 
的 树 ， 从 其 根 结 点 开始 就 会 出 现 分 文 。 如 果 一 个 字符 串 是 某 个 关键 字 的 
前 级 (不 一 定 是 真 前 级 ) ， 那 么 在 trie 中 就 有 一 个 和 该 字符 串 对 应 的 状 
态 。 串 bib;...bl1 对 应 的 状态 是 串 b1b,...bl 对 应 的 状态 的 父 结 点 。 如 果 一 
个 状态 对 应 于 某 个 完整 的 关键 字 ， 那 么 该 状态 束 是 接受 状态 。 例 如 ， 图 
3-21 显 示 了 对 应 于 关键 字 he、she、his 和 hers 的 trie 树 。 











图 3-21 关键 字 he、she、his 和 hers 的 trie 树 


通用 trie 树 的 失效 函数 的 定义 如 下 。 假 设 s 是 对 应 于 串 bib.….bi 的 状 
态 ， 那 么 状态 f(s〉 对 应 于 最 长 的 、 既 是 串 bibz...bs 的 后 级 又 是 某 个 关 
键 字 的 前 级 的 字符 串 。 例 如 ， 图 3-21 中 trie 树 的 失效 函数 为 : 


ss |1/2|3,4/516|7|8|9| 





fs) N01010l1|1210131013) 


! 练习 3.4.10: 修改 图 3-19 中 的 算法 ， 使 它 可 以 计算 通用 trie 树 的 失 





效 图 数 。 提 示 : 主要 的 不 同 在 于 ， 在 图 3-19 的 第 4、5 行 上 ， 我 们 不 能 简 





单 地 测试 b.; 和 Pb, 是 否 相 等 。 从 任何 一 个 状态 出 发 ， 都 可 能 存在 多 个 在 
不 同 字 符 上 的 转换 。 比 如 在 图 3-21 中 ， 存 在 从 状态 1 出 发 、 分 别 在 字符 e 
和 i 上 的 两 个 转换 。 这 些 转换 都 可 能 进入 代表 了 最 长 的 既是 后 缀 又 是 前 
级 的 字符 串 的 状态 。 

练习 3.4.11: 为 下 面 的 关键 字 集 合 构造 rie 以 及 失效 函数 。 

1) aaa、abaaa 和 ababaaa。 


2) all. fall. fatal、 llama 和 lame。 


3) pipe、 pet、 item、 temper 和 和 perpetual。 


! 练习 3.4.12: 说 明 练 习 3.4.10 中 所 设计 的 算法 的 运行 时 间 和 所 有 
关键 字 长 度 的 总 和 成 线性 关系 。 











3.5 ”词法 分 析 器 生成 工具 Lex 


在 本 节 中 ， 我 们 将 介绍 一 个 名 为 Lex 的 工具 。 在 最 近 的 实现 中 它 也 
称 为 Flex。 它 文 持 使 用 正则 表达 式 来 描述 各 个 词法 单元 的 模式 ， 由 此 给 
出 一 个 词法 分 析 器 的 规约 。Lex 工 具 的 输入 表示 方法 称 为 Lex 语 言 〈LexX 
language) ， 而 工具 本 映 则 称 为 Lex 编 译 器 (Lex compiler) 。 在 它 的 核 
心 部 分 ，Lex 编 译 器 将 输入 的 模式 转换 成 一 个 状态 转换 图 ， 并 生成 相应 
的 实现 代码 ， 并 存放 到 文件 lex.yy.c 中 。 这 些 代 码 模 拟 了 状态 转换 图 。 
如 何 将 正则 表达 式 翻 译 为 状态 转换 图 是 下 一 节 讨 论 的 主题 ， 这 里 我 们 只 


学 习 Lex 语 言 。 
3.5.1 Lex 的 使 用 


Lex 的 使 用 方法 如 图 3-22 所 示 。 首 先 ， 用 Lex 语 言 写 出 一 个 输入 文 
件 ， 插 述 将 要 生成 的 词法 分 析 器 。 在 图 中 这 个 输入 文件 称 为 lex.1。 然 
后 ，Lex 编 译 器 将 lex ,1 转换 成 C 语 言 程 序 ， 存 放 该 程序 的 文件 名 总 
是 lex.yy.c。 最 后 ， 文 件 lex.yy.c 总 是 被 C 编 译 器 编译 为 一 个 名 为 a.out 的 
文件 。C 编 译 器 的 输出 就 是 一 个 读 取 输入 字符 流 并 生成 词法 单元 流 的 可 
运行 的 词法 分 析 器 。 


编译 后 的 C 程 序 ， 在 图 3-22 中 被 称 为 a.out ， 通 常 是 一 个 被 语法 分 析 
器 调用 的 子 例 程 ， 这 个 子 例 程 返回 一 个 整数 值 ， 即 可 能 出 现 的 东 个 词法 
单元 名 的 编码 。 而 词法 单元 的 属性 值 ， 不 管 它 是 一 个 数字 编码 ， 还 是 一 
个 指向 符号 表 的 指针 ， 或 者 什么 都 没有 ， 痢 保存 在 全 局 变量 yylval 中 
包 。 这 个 变量 由 词法 分 析 器 和 语法 分 析 器 共享 。 这 么 做 可 以 同时 返回 一 
个 词法 单元 名 字 和 一 个 属性 值 。 





词法 单元 的 序列 





图 3-22 ”用 Lex 创 建 一 个 词法 分 析 器 


3.5.2 Lex 程序 的 结构 


一 个 Lex 程 序 具有 如 下 形式 : 


声明 部 分 





%% 
转换 规则 
%% 

辅助 函数 








声明 部 分 包括 变量 和 明示 常量 (manifest constant， 被 声明 的 表示 一 
个 常数 的 标识 符 ， 如 一 个 词法 单元 的 名 字 ) 的 声明 和 3.3.4 节 中 描述 的 正 
则 定义 。 
Lex 程 序 的 每 个 转换 规则 具有 如 下 形式 : 
模式 { 动作 } 


其 中 ， 每 个 模式 是 一 个 正则 表达 式 ， 它 可 以 使 用 声明 部 分 中 给 出 的 正则 
定义 。 动 作 部 分 是 代码 片段 。 虽 然 人 们 已 经 创建 了 很 多 能 使 用 其 他 语言 











的 Lex 的 变 体 ， 但 这 些 代 码 片 段 通常 是 用 C 语 言 编写 的 。 


Lex 程 友 的 第 三 个 部 分 包含 各个 动作 需要 使 用 的 所 有 辅助 函数 。 还 
有 一 种 方法 是 将 这 些 函 数 单 独 编译 ， 并 与 词法 分 析 器 的 代码 一 起 装载 。 


由 Lex 创 建 的 词法 分 析 器 和 语法 分 析 融 按照 如 下 方式 协同 工作 。 当 
词法 分 析 需 被 语法 分 析 器 调用 时 ， 词 法 分 析 器 开始 从 余下 的 输入 中 逐个 
读 取 字 符 ， 直 到 它 发 现 了 最 长 的 与 茶 个 模式 Pi 匹配 的 前 缀 。 然 后 ， 词 法 
分 析 器 执行 相关 的 动作 A;。 通 常 Aj 会 将 控制 返回 给 语法 分 析 右 。 然 而 ， 
如 果 它 不 返回 控制 (比如 Pi 描述 的 是 空白 符 或 注释 ) ， 那 么 词法 分 析 器 
就 继续 寻找 其 他 的 词素 ， 直 到 茶 个 动作 将 控制 返回 给 语法 分 析 器 为 止 。 
词法 分 析 融 只 回 语 法 分 析 器 返回 一 个 值 ， 即 词法 单元 名 。 但 在 需要 时 可 
以 利用 共有 至 的 整 型 变量 yylval 传 递 有 关 这 个 词 系 的 附加 信息 。 


图 3-23 是 一 个 Lex 程 序 ， 它 能 够 识别 图 3-12 中 的 各 个 词法 单 
a 返回 找到 的 词法 单元 。 观 察 这 段 代 码 可 以 发 现 Lex 的 很 多 重要 特 


Yo 











我 们 在 声明 部 分 看 到 一 对 特殊 的 括号 : %{ 和 %}。 出 现在 括号 内 的 所 
有 内 容 都 被 直接 复制 到 文件 lex.yy.c 中 。 它 们 不 会 被 当 作 正则 定义 处 
理 。 我 们 一 般 将 明示 第 量 的 定义 放置 在 该 括号 内 ， 并 利用 C 语 言 的 
#define 语 句 给 每 个 明示 种 量 赋予 一 个 唯一 的 整数 编码 。 在 我 们 的 例子 
中 ， 我 们 在 一 个 注释 中 列 出 了 LT、 正 等 明示 和 常量， 但 没有 显示 它们 被 赋 
了 予 哪些 特定 的 整数 。 包 


在 声明 部 分 还 包含 一 个 正则 定义 的 序列 。 这 些 定义 使 用 了 3.3.5 节 中 
描述 的 正则 表达 式 的 扩展 表示 方法 。 那 些 将 在 后 面 的 定义 中 或 某 个 转换 
规则 的 模式 中 使 用 的 正则 定义 用 花 括 号 括 起 来 。 例 如 ，delim 被 定义 为 
表示 一 个 包含 了 空格 、 制 表 符 及 换行 符 的 字符 类 的 缩写 。 后 两 个 字符 分 
别 用 反 斜 线 再 跟 上 t 及 n 来 表示 。 这 个 表示 法 和 UNIX 命 令 使 用 的 方法 相 
Re 
部 列 。 


注意 ， 在 id 和 number 的 定义 中 ， 圆 括号 是 用 于 分 组 的 元 符号 ， 并 不 
代表 圆 括号 自身 。 相 反 ， 在 number 定 义 中 的 E 代 表 其 自身 。 如 果 我 们 希 
望 Lex 的 某 个 元 符号 〈 比 如 括号 、+、#* 或 ? 等 ) 表示 其 自身 ， 我 们 可 以 
在 它们 前 面 加 上 一 个 反 斜 线 。 例 如 ， 我 们 在 number 的 定义 中 看 到 的 \. 就 























表示 小 数 点 本 身 。 在 它 前 面 加 上 反 斜 线 的 原因 是 ， 和 在 UNIX 正 则 表达 
式 中 一 样 ， 该 字符 在 Lex 中 是 一 个 代表 “ 任 一 字符 ”的 元 符号 。 


在 辅助 函数 部 分 ， 我 们 可 以 看 到 这 样 两 个 函数 : installID() 和 
installNum( )。 和 位 于 %{..%} 中 的 声明 部 分 一 样 ， 出 现在 辅助 部 分 中 的 所 
有 内 容 都 被 直接 复制 到 文件 lex.yy.c 中 。 虽 然 它们 位 于 转换 规则 部 分 之 
后 ， 但 这 些 函数 可 以 在 规则 部 分 的 动作 定义 中 使 用 。 


最 后 ， 让 我 们 看 一 下 图 3-23 的 中 间 部 分 的 一 些 模式 和 规则 。 首 先 ， 
在 第 一 部 分 中 定义 的 标识 符 ws 有 一 个 相关 的 空 动作 。 如 果 我 们 发 现 了 一 
全 全 同和， 我 们 并 个 把 它 返 加 给 语法 分 析 器 ， 而 是 继续 寻找 另 一 个 词 
素 。 第 二 词法 单元 有 一 个 简单 的 正则 表达 式 模 式 计 。 如 果 我 们 在 输入 中 
看 到 两 个 字母 if， 并 目 if 之 后 没有 跟随 其 他 字 卫 或 数位 (如 果 有 的 话 ， 
词法 分 析 器 会 去 寻找 一 个 和 id 模 式 匹 配 的 最 长 输入 前 经) ， 然 后 词法 分 
析 右 从 输入 中 读 入 这 两 个 字符 ， 并 返回 词法 单元 名 IF， 也 就 是 明示 常量 
IF 所 代表 的 整数 值 。 关 键 字 then 和 else 的 处 理 方法 与 此 类 似 。 











%{ 
/* definitions of manifest constants 
LT, LE, EQ, NE, GT, GE, 
IF, THEN, ELSE, ID, NUMBER, RELOP */ 
4} 


/* regular definitions */ 

delim [ \t\n] 

WS {delim}+ 

letter [A-Za-2z] 

digit [0-9] 

id {letter}({letter}|{digit})* 

number {digit}+(\. {digit}+)?(E[+-]?{digit}+)? 


办 


{ws} {/* no action and no return */} 

if {return(IF);} 

then {return(THEN) ;} 

else {return (ELSE);} 

{id} {yylval = (int) installID(); return(ID);} 


{number} {yylval = (int) installNum(); return (NUMBER);} 
dd {yylval = LT; return(RELOP);} 
wen {yylval = LE; return(RELOP);} 
"=" {yylval = EQ; return (RELOP);} 
WS {yylval = NE; return (RELOP);} 
Wy {yylval = GT; return(RELOP);} 
1>=1 {yylval = GE; return(RELOP);} 


办 


int installID() {/* function to install the lexeme, whose 
first character is pointed to by yytext, 
and whose length is yyleng, into the 
symbol table and return a pointer 
thereto */ 

} 


int installNum() {/* similar to installID, but puts numer- 
ical constants into a separate table +*/ 


3 





图 3-23 识别 图 3-12 中 的 词法 单元 的 Lex 程 序 


第 五 个 词法 单元 的 模式 由 id 定 义 。 注 意 ， 虽 然 像 让 这 样 的 关键 字 既 
和 这 个 模式 匹配 ， 也 和 之 前 的 一 个 模式 匹配 ， 但 是 当 最 长 匹配 前 级 和 多 





个 模式 匹配 时 ，Lex 总 是 选择 最 移 和 被 列 出 的 模式 。 当 id 被 匹配 时 ， 相 应 
的 处 理 动作 分 为 三 步 : 


1) 调用 函数 installID() 将 找到 的 词素 放 入 符号 表 中 。 


2) 该 函数 返回 一 个 指向 符号 表 的 指针 。 这 个 指针 被 放 到 全 局 变量 
yylval 中 ， 并 可 被 语法 分 析 吉 或 编译 器 的 某 个 后 续 组 件 使 用 。 注 意 ， 函 
a 0 
变量: 


。 和 与 图 3-3 中 的 lexemeBegin 类 
以。 

。 yyleng 存 放 刚 找到 的 词素 的 长 度 。 
3) 将 词法 单元 名 也 返回 到 语法 分 析 回 。 


当 一 个 词素 与 模式 number 匹 配 时 ， 执 行 的 处 理 与 此 类 似 ， 它 使 用 辅 
助 函 数 installNum( ) 完 成 处 理 。 


3.5.3” Lex 中 的 冲突 解决 


前 面 我 们 已 经 间接 提 到 了 Lex 解 决 冲突 的 两 个 规则 。 当 输入 的 多 个 
前 级 与 一 个 或 多 个 模式 匹配 时 ，Lex 用 如 下 规则 选择 正确 的 词素 : 


1) 总 是 选择 最 长 的 前 绥 。 


2) 如 果 最 长 的 可 能 前 缀 与 多 个 模式 匹配 ， 总 是 选择 在 Lex 程 序 中 先 
被 列 出 的 模式 。 


第 一 个 规则 告诉 我 们 ， 要 持续 读 入 字母 和 数位 ， 寻 找 最 长 的 由 
这 些 字 符 组 成 的 前 缀 并 将 它们 组 合成 为 一 个 标识 符 。 它 也 告诉 我 们 应 该 
将 <= 看 成 是 一 个 词素 ， 而 不 是 将 < 看 作 一 个 词素 、 再 将 三 看 作 下 一 个 词 
素 。 如 果 我 们 在 Lex 程 序 中 将 关键 字 的 模式 置 于 id 的 模式 之 前 ， 那 么 第 
二 个 规则 将 使 得 关键 字 成 为 保留 字 。 例 如 ， 如 果 then 被 确定 为 和 某 个 模 
式 匹配 的 最 长 输入 前 缀 ， 并 且 如 图 3-23 所 示 ， 模 式 then 被 置 于 {id} 之 
前 ， 那 么 返回 的 词法 单元 将 是 THEN， 而 不 是 ID。 














354 癌 前 看 运算 符 


Lex 自 动 地 同 前 读 入 一 个 字符 ， 它 会 读 取 到 形成 被 选 词素 的 全 部 字 
符 之 后 的 那个 字符 ， 然 后 再 回 退 输入 ， 使 得 只 有 词素 本 号 从 输入 中 消耗 
挥 。 但 是 在 某 些 时 候 ， 我 们 希望 仅 当 词素 的 后 面 跟随 特定 的 其 他 字符 
时 ， 这 个 词素 才能 和 某 个 特定 的 模式 相 匹 配 。 在 这 种 情况 下 ， 我 们 可 以 
在 模式 中 用 和 斜 线 来 指明 该 模式 中 和 词素 实际 匹配 的 部 分 的 结尾 ， 和 斜 线 / 
之 后 的 内 容 表示 一 个 附加 的 模式 ， 只 有 附加 模式 和 输入 匹配 之 后 ， 我 们 
才 可 以 确定 已 经 看 到 了 要 寻找 的 词法 单元 的 词素 ， 但 是 和 第 二 个 模式 匹 
配 的 字符 并 不 是 这 个 词素 的 一 部 分 。 

在 Fortran 和 一 些 其 他 语言 中 ， 关 键 字 并 不 是 保留 字 。 这 种 情形 

会 产生 一 些 问 题 ， 比 如 下 面 的 语句 

IF (I, J) 三 3 
其 中 ，IF 是 一 个 数组 的 名 字 ， 而 不 是 关键 字 。 与 这 条 语句 形成 对 比 的 是 
下 面 形式 的 语句 : 

IF (condition) THEN ... 

在 这 里 ， 正 是 一 个 关键 字 。 和 幸运 的 是 ， 我 们 可 以 确定 关键 字 IF 后面 
总 是 跟着 一 个 左 括 号 ， 然 后 是 一 些 可 能 包含 在 括号 中 的 文本 ， 即 条 件 表 


达 式 ， 接 着 是 一 个 右 括号 和 一 个 字母 。 那 么 ， 我 们 可 以 为 关键 字 IF 写 出 
如 下 的 Lex 规 则 : 



































IF / \(. * \) {letter} 


这 条 规则 是 说 和 这 个 词素 匹配 的 模式 仅仅 是 两 个 字母 TIF。 和 斜 线 表 示 后 面 
会 有 一 个 附加 的 模式 ， 但 是 这 个 模式 并 不 和 词素 匹配 。 在 这 个 附加 模式 
中 ， 第 一 个 字符 是 左 括号 。 由 于 左 括号 是 Lex 的 一 个 元 符号 ， 因 此 我 们 
必须 在 它 的 前 面 加 上 一 个 反 斜 线 ， 说 明 它 表示 的 是 其 字面 含义 。 其 中 
的 .* 与 “任何 不 包含 换行 符 的 字符 串 " 匹 配 。 请 注意 ， 点 号 是 一 个 Lex 的 元 
符号 ， 表 示 “ 除 换行 符 外 的 任何 字符 ”。 接 下 来 是 一 个 右 括号 ， 同 样 也 加 
一 个 反 斜 线 使 得 该 字符 表示 其 字面 含义 。 该 附加 模式 的 最 后 是 符号 
letter， 该 符号 是 一 个 正则 定义 ， 表 示人 代表 所 有 字母 的 字符 类 。 




















注意 ， 为 了 使 该 模式 简单 可 靠 ， 我 们 必须 对 输入 进行 预 处 理 ， 消 除 
其 中 的 空白 符 。 在 该 模式 中 ， 我 们 既 没 有 考虑 到 空白 符 ， 也 不 能 处 理 条 
件 表达 式 跨 行 的 情形 ， 因 为 点 号 不 能 和 一 个 换行 符 匹 配 。 

例如 ， 假 设 该 模式 被 用 来 瑟 配 下 面 的 输入 前 绥 : 

IF (A< (B+C) *D) THEN.. 
前 两 个 字符 和 正 匹 配 ， 下 一 字符 和 \《 匹 配 ， 接 下 来 的 九 个 字符 和 .* 匹 
配 ， 再 接 下 来 的 两 个 字符 分 别 和 \) 及 letter 匹 配 。 请 注意 ， 第 一 个 右 括 
号 《在 C 的 后 面 ) 后 面 跟 的 不 是 一 个 字母 ， 这 个 事实 与 问题 不 相关 ， 因 
为 我 们 只 需要 找到 东 种 方式 将 输入 与 模式 相 匹配 。 最 后 我 们 得 出 结论 ， 
字符 正 组 成 一 个 词 尿 ， 并 且 它 们 是 词法 单元 放 的 一 个 实例 。 








3.5.5 3.5 节 的 练习 


练习 3.5.1: 描述 如 何 对 图 3-23 中 的 Lex 程 序 作 出 如 下 修改 : 
1) 增加 关键 字 while。 

2) 将 比较 运算 符 转 变 成 C 语 言 中 的 同类 运算 符 。 

3) 允许 把 下 划 线 当 作 一 个 附加 的 字母 。 


! 4) 增加 一 个 新 的 具有 词法 单元 STRING 的 模式 。 该 模式 由 一 个 双 
引号 〈”) 、 任 意 字符 串 以 及 结尾 处 的 一 个 双 引 号 组 成 。 但 是 ， 如 有 果 一 
个 双 引 号 出 现在 上 述 串 中 ， 那 么 它 的 前 面 必须 加 上 一 个 反 斜 线 (\) 进 
行 转 义 处 理 ， 因 此 在 该 字符 串 中 的 反 斜 线 将 用 双 反 斜 线 表示 。 这 个 词法 
单元 的 词法 值 是 去 挤 了 双 引 号 的 字符 串 ， 并 且 其 中 用 于 转 义 的 反 斜 线 已 
经 被 删除 。 识 别 得 到 的 字符 串 将 被 存放 到 一 个 字符 串 表 中 。 


练习 3.5.2: 编写 一 个 Lex 程 序 。 该 程序 拷贝 一 个 文件 ， 并 将 文件 中 
每 个 非 空 的 空白 符 序 列 蔡 换 为 单个 空格 。 


练习 3.5.3: 编写 一 个 Lex 程 序 。 访 程序 拷贝 一 个 C 程 序 ， 并 将 程序 
中 关键 字 float 的 每 个 实例 蔡 换 成 double。 














! 练习 3.5.4: 编写 一 个 Lex 程 序 。 该 程序 把 一 个 文件 改变 成 为 “Pig 
latin” 文 。 明 确 地 讲 ， 假 设 该 文件 是 一 个 用 空白 符 分 阳 开 的 单词 ( 即 字 
母 串 ) 序列 。 每 当 你 遇 到 一 个 单词 时 : 


到 1) 如 有 果 第 一 个 字母 是 辅音 字母 ， 则 将 它 移 到 单词 的 结尾 ， 并 加 
ay。 


2) 如 果 第 一 个 字母 是 元 音字 母 ， 则 只 在 单词 的 结尾 加 上 ay。 
所 有 非 字 母 的 字符 不 加 处 理 直 接 拷贝 到 输出 。 


! 练习 3.5.5: 在 SQL 中 ， 关 键 字 和 标识 符 都 是 大 小 写 不 敏感 的 。 
编写 一 个 Lex 程 序 ， 该 程序 识别 〈 大 小 写字 母 任 意 组 合 的 ) 关键 字 
SELECT、FROM 和 WHERE 以 及 词法 单元 ID。 考 虑 到 这 个 练习 的 目的 ， 你 可 以 
把 ID 看 成 是 任何 以 一 个 字母 开头 、 由 字母 和 数位 组 成 的 字符 串 。 你 不 必 
将 标识 符 存 放 到 一 个 符号 表 中 ， 但 需要 指出 这 里 的 “install” 函 数 与 图 3-23 
中 用 于 描述 大 小 写 敏 感 标识 符 的 函数 有 何不 同 。 
































3.6 ”有 穷 上 自动 机 


现在 ， 我 们 将 揭示 Lex 是 如 何 将 它 的 输入 程序 变 成 一 个 词法 分 析 器 
的 。 转 换 的 核心 是 被 称 为 有 穷 自动 机 (finite automata) 的 表示 方法 。 这 
些 上 自动 机 在 本 质 上 是 与 状态 转换 图 类 似 的 图 ， 但 有 如 下 几 点 不 同 : 


1) 有 穷 自动 机 是 识别 器 (recognizer) ， 它 们 只 能 对 每 个 可 能 的 输 
入 串 简 单 地 回答 “是 ?或 * 否 ”。 


2) 有 穷 上 自动 机 分 为 两 类 : 


GD 不 确定 的 有 穷 自动 机 (Nondeterministic Finite Automata，NFA) 
对 其 边 上 的 标号 没有 任何 限制 。 一 个 符号 标记 离开 同一 状态 的 多 条 边 ， 
并 且 空 串 E 也 可 以 作为 标号 。 


@ 对 于 每 个 状态 及 自动 机 输入 字母 表 中 的 每 个 符号 ， 确 定 的 有 穷 
自动 机 (Deterministic Finite Automata，DFA) 有 有 只 有 一 条 离开 该 状 
态 、 以 该 符号 为 标号 的 边 。 


确定 的 和 不 确定 的 有 穷 自动 机 能 识别 的 语言 的 集合 是 相同 的 。 事 实 
EF， 这 些 语言 的 集合 正好 是 能 够 用 正则 表达 式 描 述 的 语言 的 集合 。 这 个 
集合 中 的 语言 称 为 正则 语言 (regular language) 纪 。 





























3.6.1 不 确定 的 有 穷 目 动机 





一 个 不 确定 的 有 穷 自动 机 NFA〉 由 以 下 儿 个 部 分 组 成 : 
1) 一 个 有 穷 的 状态 集合 5。 


2) 一 个 输入 符号 集合 2， 即 输入 字母 表 (input alphabet) 。 我 们 假 
设 代表 空 串 的 E 不 是 > 中 的 元 素 。 


3) 一 个 转换 函数 〈transition function) ， 它 为 每 个 状态 和 2U{E} 
中 的 每 个 符号 都 给 出 了 相应 的 后 继 状 态 (next state) 的 集合 。 





4) S 中 的 一 个 状态 so 被 指定 为 开始 状态 ， 或 者 说 初始 状态 。 
5) S 的 一 个 子 集 F 被 指定 为 接受 状态 (或 者 说 终止 状态 的 ) 集合 。 


不 管 是 NFA 还 是 DFA， 我 们 都 可 以 将 它 表示 为 一 张 转换 图 
(transition graph) 。 图 中 的 结 点 是 状态 ， 带 有 标号 的 边 表示 目 动 机 的 
转换 函数 。 从 状态 s 到 状态 t 存 在 一 条 标 写 为 a 的 边 当 且 仪 当 状 态 t 是 状态 s 

在 输入 a 上 的 后 继 状 态 之 一 。 这 个 图 与 状态 转换 图 十 分 相似 ， 但 是 : 


QD 同一 个 符号 可 以 标记 从 同一 状态 出 发 到 达 多 个 目标 状态 的 多 条 


忆 一 条 边 的 标号 不 仅 可 以 是 输入 字母 表 中 的 符号 ， 也 可 以 是 空 符 


号 串 E。 











图 3-24 给 出 了 一 个 能 够 识别 正则 表达 式 (alb) “abb 的 语言 的 
NFA 的 转换 图 。 这 个 抽象 的 例子 描述 了 所 有 由 a 和 Pb 组 成 的 、 以 字符 串 
abb 结 尾 的 字符 串 。 这 个 例子 将 贯穿 本 节 。 虽 然 它 很 抽象 ， 但 是 实际 上 
它 与 一 些 具 有 实际 意义 的 语言 的 正则 表达 式 相 似 。 例 如 ， 描 述 所 有 其 名 
字 以 .o 结 尾 的 文件 的 表达 式 是 any*.o， 其 中 any 表 示 任 何 可 打印 字符 。 





a 
start 应 个 b @) b @, 
b 


图 3-24 一 个 不 确定 有 穷 自动 机 


沿用 状态 转换 图 中 的 惯例 ， 状 态 3 的 双 圈 表明 该 状态 是 接受 状态 。 
请 注意 ， 从 状态 0 到 达 接 受 状 态 的 所 有 路 径 都 是 先 在 状态 0 上 运行 一 段 时 
间 ， 然 后 从 输入 中 读 取 abb， 分 别 进 入 状态 1、2 和 3。 因 此 能 够 到 达 接 受 
状态 的 所 有 字符 串 都 是 以 abb 结 尾 的 。 








3.6.2 ”转换 表 


我 们 也 可 以 将 一 个 NFA 表 示 为 一 张 转换 表 (transition table) ， 表 的 
各 行 对 应 于 状态 ， 各 列 对 应 于 输入 符号 和 E 。 对 应 于 一 个 给 定 状 态 和 给 
定 输入 的 条 目 是 将 NFA 的 转换 函数 应 用 于 这 些 参数 后 得 到 的 值 。 如 果 转 
ee 
项 中 。 


四 日 图 3-25 显 示 了 与 图 3-24 的 NFA 对 应 的 转换 表 。 





图 3-25 ”对 应 于 图 3-24 的 NFA 的 转换 表 


转换 表 的 优点 是 我 们 能 够 很 容易 地 确定 和 一 个 给 定 状 态 和 一 个 输入 
符号 相对 应 的 转换 。 它 的 缺点 是 : 如 果 输 入 字母 表 很 大 ， 且 大 多 数 状 态 
在 大 多 数 输入 字符 上 没有 转换 的 时 候 ， 转 换 表 需要 占用 大 量 空间 。 


3.6.3” 目 动机 中 输入 字符 串 的 接受 


一 个 NFA 接 受 〔accept) 输入 字符 串 x， 当 上 且 仅 当 对 应 的 转换 图 中 存 
在 一 条 从 开始 状态 到 某 个 接受 状态 的 路 径 ， 使 得 该 路 径 中 各 条 边 上 的 标 
号 组 成 符号 串 x。 注 意 ， 路 径 中 的 标号 将 被 忽略 ， 因 为 空 哩 不 会 影响 
到 根据 路 径 构建 得 到 的 符号 串 。 


BE 图 3-24 的 NFA 接 受 符号 串 aabb， 因 为 存在 如 下 从 状态 0 到 达 状 
仿 3 鸭 称号 序列 为 aabb 的 路 径 : 





a a 


0 














0 1 2 3 








请 注意 ， 可 能 还 存在 多 条 具有 相同 标号 序列 、 但 是 到 达 不 同 状态 的 


路 径 。 例 如 下 面 的 路 径 


a a b 
0 0 














0 0 0 


是 男 一 条 从 状态 0 出 发 、 标 号 厅 列 同样 为 aabb 的 路 人 径 。 这 条 路 径 最 后 仍 
回 到 状态 0， 但 状态 0 不 是 接受 状态 。 然 而 ， 请 记 住 ， 只 要 存在 某 条 其 标 
号 序列 为 东 符 号 串 的 路 径 能 够 从 开始 状态 到 达 茶 个 接受 状态 ，NEFA 束 接 
受 这 个 符号 串 。 存 在 茶 些 到 达 非 接受 状态 的 路 径 并 不 会 影响 这 个 结论 。 


由 一 个 NFA 定 义 〈 或 接受 ) 的 语言 是 从 开始 状态 到 某 个 接受 状态 的 
所 有 路 径 上 的 标号 串 的 集合 。 前 面 提 到 过 ， 图 3-24 中 的 NFA 和 定义 的 语言 
和 正则 表达 式 “alb) “abb 定 义 的 语言 相同 ， 即 所 有 来 自 字 母 表 {a，b} 且 
以 串 abb 结 尾 的 串 的 集合 。 我 们 可 以 用 L(A) 表示 自动 机 A 接受 的 语 








网 图 3-26 是 一 个 接受 L (aa"lbb*) 的 NFA。 因 为 存在 如 下 的 路 
和 


€ 


0 


Start 





图 3-26 ”接受 aa* | bb* 的 NFA 


字符 串 aaa 被 这 个 NFA 接 受 。 请 注意 ， 路 径 中 的 E 标 号 在 连接 时 “ 消 





失 ” 了 ， 因 此 这 条 路 径 的 标号 是 aaa。 





3.6.4 ”确定 的 有 穷 目 动机 





0 


1) 没有 输入 SE 之 上 的 转换 动作 。 


2) 对 每 个 状态 s 和 每 个 输入 符号 a， 有 且 只 有 一 条 标号 为 8 的 边 离开 





an 
O 





如 果 我 们 使 用 转换 表 来 表示 一 个 DFA， 那 么 表 中 的 每 个 表 项 就 是 一 
个 状态 。 因 此 ， 我 们 可 以 不 使 用 花 括 号 ， 直 接 写 出 这 个 状态 ， 因 为 花 括 





写 只 是 用 来 说 明 表 项 的 内 容 是 一 个 集合 。 


NFA 抽 象 地 表示 了 用 来 识别 菜 个 语言 中 的 串 的 算法 ， 而 相应 的 DFA 

则 是 一 个 简单 具体 的 识别 串 的 算法 。 在 构造 词法 分 析 器 的 时 候 ， 我 们 真 

正 实 现 或 模拟 的 是 DFA。 羊 运 的 是 ， 每 个 正则 表达 式 和 每 个 DFA 都 可 以 

人 同 语言 的 DFA。 下 边 的 算法 说 明了 如 何 将 DFA 用 
9 识 列 。 


模拟 一 个 DFA。 
输入 一 个 以 文件 结束 符 eof 结 尾 的 字符 串 x。DEFA D 的 开始 状态 为 
50， 接 受 状态 集 为 F， 转 换 函 数 为 move。 


输出 : 如 果 D 接 受 x， 则 回答 “yes”， 人 否则 回答 “no”。 


方法 : 把 图 3-27 中 的 算法 应 用 于 输入 字符 串 x。 函 数 move (S，c) 
给 出 了 从 状态 s 出 发 ， 标 号 为 c 的 边 所 到 达 的 状态 。 函 数 nextchar 返 回 输 
入 串 x 的 下 一 个 字符 。 


5 = so; 
c= nertChar(); 
while (c!= eof ){ 
5 = move(s, oc); 
c= nertChar(); 


} 
if( s 在 正中 ) return "yes"; 
else return "no"; 





图 3-27 模拟 一 个 DFA 
KE 惠 图 3-28 显 示 的 是 一 个 DFA 的 转换 图 。 该 DFA 接 受 的 语言 与 图 3- 


24 的 NFA 所 接受 的 语言 相同 ， 都 是 Calb) “abb。 给 定 输入 串 ababb， 这 
个 DFA 顺 序 进 入 状态 序列 0、1、2、1、2、3， 并 返回 “yes”。 





图 3-28 接受 (a |b) *abb 的 DFA 


3.6.5 3.6 节 的 练习 


! 练习 3.6.1: 3.4 节 的 练习 中 的 图 3-19 计 算 了 KMP 算 法 的 失效 函 
数 。 说 明 在 已 知 失 效 函 数 的 情况 下 ， 如 何 根据 已 知 的 关键 字 b1b...b，， 
构造 出 一 个 具有 n+1 个 状态 的 DFA， 该 DFA 可 以 识别 语言 .bjb,...b,。 (其 
中 ， 点 代表 任意 字符 ) 。 更 进一步 ， 证 明 构 造 这 个 DFA 的 时 间 复 杂 度 是 
O Cn) 。 

练习 3.6.2: 为 练习 3.3.5 中 的 每 一 个 语言 设计 一 个 DFA 或 NFA。 


练习 3.6.3: 找 出 图 3-29 所 示 的 NFEA 中 所 有 标号 为 aabb 的 路 径 。 这 个 
NEFA 接 受 aabb 吗 ? 


@) i Cr 一 一 的 


a.b a.b a.b 
图 3-29 ”练习 3.6.3 的 NFA 


练习 3.6.4: 对 于 图 3-30 的 NFA， 重 复 练习 3.6.3。 





图 3-30 ”练习 3. 6. 4 的 NFA 
练习 3.6.5: 给 出 如 下 练习 中 的 NFA 的 转换 表 : 


1) 练习 3.6.3。 


2) 练习 3.6.4。 


3) 图 3-26。 


3.7 ”从 正则 表达 式 到 目 动机 


就 像 3.5 节 的 内 容 所 介绍 的 ， 正 则 表达 式 非 常 适合 描述 词法 分 析 器 
和 其 他 模式 处 理 软件 。 然 而 那些 软件 的 实现 需要 像 算 法 3-18 中 那样 来 模 
拟 DFA 的 执行 ， 或 者 模拟 NFA 的 执行 。 由 于 NFA 对 于 一 个 输入 符号 可 以 
选择 不 同 的 转换 (如 在 图 3-24 中 的 状态 0 上 输入 为 a 时 ) ， 它 还 可 以 执行 
输入 E 上 的 转换 (如 在 图 3-26 中 的 状态 0 上 时 ) ， 甚 至 可 以 选择 是 对 E 
或 是 对 真实 的 输入 符号 执行 转换 ， 因 此 对 NFA 的 模拟 不 如 对 DFA 的 模拟 
直接 。 于 是 ， 我 们 需要 将 一 个 NFA 转 换 为 一 个 识别 相同 语言 的 DFA。 


这 一 节 我 们 将 首先 介绍 如 何 把 NFA 转 化 为 DFA。 然 后 ， 我 们 利用 这 
种 称 为 “ 子 集 构 造 法 ”的 技术 给 出 一 个 直接 模拟 NFA 的 算法 。 这 个 算法 可 
用 于 那些 将 NFA 转 化 到 DFA 比 直接 模拟 NFS 更 加 耗 时 的 〈 非 词法 分 析 
的 ) 情形 。 接 着 ， 我 们 将 说 明 如 何 把 正则 表达 式 转换 为 NFA， 在 必要 时 
可 以 根据 这 个 NFA 构 造 出 一 个 DFA。 最 后 我 们 讨论 了 不 同 的 正则 表达 式 
9 的 时 间 - 空 间 权 衡 问题 ， 并 说 明 如 何 为 具体 的 应 用 选择 合 
适 的 方法 。 








3.7.1 ”从 NFA 到 DFA 的 转换 


子 集 构 造 法 的 基本 思想 是 让 构造 得 到 的 DFA 的 每 个 状态 对 应 于 NFA 
的 一 个 状态 集合 。DFA 在 读 入 输入 ala2.….an 之 后 到 达 的 状态 对 应 于 相应 
NFA 从 开始 状态 出 发 ， 沿 着 以 aja.….al 为 标号 的 路 径 能 够 到 达 的 状态 的 
集合 。 

DFA 的 状态 数 有 可 能 是 NFA 状 态 数 的 指数 ， 在 这 种 情况 下 ， 我 们 在 
试图 实现 这 个 DFA 时 会 过 到 困难 。 然 而 ， 基 于 自动 机 的 词法 分 析 方 法 的 
处 理 能 力 部 分 源 于 如 下 事实 : 对 于 一 个 真实 的 语言 ， 它 的 NFA 和 DFA 的 
状态 数量 大 致 相同 ， 状 态 数量 呈 指 数 关 系 的 情形 疝 未 在 实践 中 出 现 过 。 


ER 由 NFA 构 造 DFA 的 子 集 构造 (subset construction ) 算 
法 。 











输入 : 一 个 NFA N。 
输出 : 一 个 接受 同样 语言 的 DFA D。 


方法 : 我 们 的 算法 为 D 构 造 一 个 转换 表 Dtran。D 的 每 个 状态 是 一 
个 NFA 状 态 集 合 ， 我 们 将 构造 Dtran， 使 得 D“ 并 行 地 ”模拟 N 在 遇 到 一 个 
给 定 输入 串 时 可 能 执行 的 所 有 动作 。 我 们 面 对 的 第 一 个 问题 是 正确 处 理 
N 的 Ee 转换 。 在 图 3-31 中 我 们 可 以 看 到 一 些 函 数 的 定义 。 这 些 函 数 捅 述 
了 一 些 需 要 在 这 个 算法 中 执行 的 N 的 状态 集 上 的 基本 操作 。 请 注意 ，s 表 
示 N 的 单个 状态 ， 而 T 代 表 N 的 一 个 状态 集 。 


) 


(s 


move(T', a) 



















能 够 从 NFA 的 状态 s 开始 只 通过 e 转换 到 达 的 NFA 状态 集合 












能 够 从 T 中 某 个 NFA 状 态 s 开 始 只 通过 e 转换 到 达 的 NFA 
状态 集合 , 即 User e-closure(s) 





能 够 从 工 中 某 个 状态 s 出 发 通过 标号 为 4 的 转换 到 达 的 
NFA 状 态 的 集合 





图 3-31 ”NFA 状态 集 上 的 操作 


我 们 必须 找 出 当 N 读 入 了 某 个 输入 串 之 后 可 能 位 于 的 所 有 状态 集 
合 。 首 先 ， 在 读 入 第 一 个 输入 符号 之 前 ，N 可 以 位 于 集合 E- 
closure (so〉 中 的 任何 状态 上 ， 其 中 so 是 N 的 开始 状态 。 下 面 进行 归纳 。 
假定 N 在 读 入 输入 串 x 之 后 可 以 位 于 集合 T 中 的 状态 上 。 如 果 下 一 个 输入 
符号 是 a， 那 么 N 可 以 立即 移动 到 集合 move 〈T，a) 中 的 任何 状态 。 然 
而 ，N 可 以 在 读 入 a 后 再 执行 几 个 Ee 转换 ， 因 此 NN 在 读 入 xa 之 后 可 位 于 
E-closure (move (T，a) ) 中 的 任何 状态 上 。 根 据 这 些 思想 ， 我 们 可 
以 得 到 图 3-32 中 显示 的 方法 ， 该 方法 构造 了 DD 的 状态 集合 Dstates 和 DD 的 
转换 函数 Dtran 。 








一 开始 , e-closure(so) 是 Dstates 中 的 唯一 状态 , 且 它 未 加 标记 ; 
while (在 Dstates 中 有 一 个 未 标记 状态 全 ) { 
给 允 加 上 标记 ; 
for ( 每 个 输入 符号 a ) { 
U = e-closure( move(T, a)); 


并 (U 不 在 Dstates 中 ) 
将 UU 加 入 到 Dstates 中 , 且 不 加 标记 ，; 
DtranlT,a] = U; 





图 3-32 子 集 构造 法 


DD 的 开始 状态 是 E-closure 〈so) ，D 的 接受 状态 是 所 有 至 少 包 含 了 N 
的 一 个 接受 状态 的 状态 集合 。 我 们 只 需要 说 明 如 何 对 NFA 的 任何 状态 集 
合 T 计 算 全 -closure (CT) ， 就 可 以 完整 地 描述 子 集 构 造 法 。 这 个 计算 过 
程 显 示 在 图 3-33 中 。 它 是 从 一 个 状态 集合 开始 的 一 次 简单 的 图 搜索 过 
程 ， 不 过 此 时 假设 这 个 图 中 只 存在 标号 为 E 的 边 。 





将 了 TT 的 所 有 状态 压 入 stack 中 ; 
将 e-closure(T) 初始 化 为 了 ; 
while ( stack 非 空 ) { 
将 栈 顶 元 素 t 弹 出 栈 中 ; 
for (每 个 满足 如 下 条 件 的 4: 从 t 出 发 有 一 个 标号 为 e 的 转换 到 达 状 态 4) 
证 (不 在 e-closure(T) 中 ) { 
将 ww 加 入 到 e-closure( 了 T) 中 ; 
将 4% 压 入 栈 中 ; 








图 3-33 计算 E-closure (T) 


图 3-34 给 出 了 男 一 个 接受 语言 (alb) “abb 的 NFA。 它 正好 是 
1 将 在 3.7 节 中 根据 这 个 正则 表达 式 直接 构造 得 到 的 NFA。 我 们 现在 
把 算法 3.20 应 用 到 图 3-34 中 。 








图 3-34 ”(a|b) “abb 对 应 的 NFA N 


等 价 NFA 的 开始 状态 A 是 Ee-closure (0) ， 即 A={0，1，2，4， 
7}。 人 A 中 的 状态 束 是 能 够 从 状态 0 出 发 ， 只 经 过 标号 为 Ee 的 路 径 到 达 的 
所 有 状态 。 请 注意 ， 因 为 路 径 可 以 不 包含 边 ， 所 以 状态 0 也 是 可 以 从 它 
自身 出 发 经 过 标号 为 E 的 路 径 到 达 的 状态 。 


NFA 的 输入 字母 表 是 {a，b}。 因 此 ， 我 们 的 第 一 步 是 标记 A， 并 计 
算 Dtran [A, a] = E-closure (move (A, a) ) 以 及 Dtran [A, b] 
=E-closure (move (A，b) ) 。 在 状态 0、1、2、4、7 中 ， 只 有 2 和 7 有 a 
上 的 转换 ， 分 别 到 达 状 态 3 和 8， 因 此 move (A，a) ={3，8}， 同 时 马 - 
closure ({3，8}) = {1，2，3，4，6，7，8}。 因 此 我 们 有 : 





Diran[4,a] = e-closure(move( A,a)) = e-closure({3,8}) = {1,2, 3, 4,6,7, 8} 
我 们 称 这 个 集合 为 B， 得 到 Dtran LA, a] =B。 


现在 我 们 要 计算 Dtran LA，bj] 。 在 A 的 状态 中 只 有 4 有 一 个 输入 b 
上 的 转换 ， 它 到 达 状 态 5， 因 此 


Dtran[A,b] = ce-closure({5}) = {1,2, 4,6,7} 
我 们 称 这 个 集合 为 C， 因 此 Dtran [A, bj] =C。 


如 果 我 们 对 未 加 标记 的 集合 B 和 C 继 续 这 个 处 理 过 程 ， 最 终 会 使 得 
这 个 DFA 的 所 有 状态 都 被 加 上 标记 。 这 个 结论 一 定 正确 ， 因 为 11 个 NFA 
状态 的 集合 只 有 231 个 子 集 。 我 们 实际 上 构造 出 5 个 不 同 的 DFA 状 态 。 这 
些 状 态 、 它 们 对 应 的 NFA 状 态 集 以 及 D 的 转换 表 显 示 在 图 3-35 中 。D 的 
转换 图 如 图 3-36 所 示 。 状 态 A 是 D 的 开始 状态 ， 而 包含 NFA 状 态 10 的 E 状 





态 是 唯一 的 接受 状态 。 


NR DFA RE olb 
{0,1,2.4.7} 
{1 3, 0 Td 
{1 2 
{1, 2, 4,5,6,7,9} 
{1,2,4, 5,6,7, 10} 


图 3-35 DFA D 的 转换 表 Dtran 







HOQNQMW~ 








图 3-36 将 子 集 构造 法 应 用 于 图 3-34 的 结果 


请 注意 ， 相 比 图 3-28 中 接受 相同 语言 (alb) “abb 的 DFA， 这 个 DFA 
D 多 了 一 个 状态 。D 的 状态 A 和 C 具 有 同样 的 转换 函数 ， 因 此 可 以 被 合 
并 。 我 们 将 在 3.9.6 中 讨论 使 一 个 DFA 的 状态 个 数 最 小 化 问题 。 


3.7.2 NEFA 的 模拟 


许多 文本 编辑 程序 使 用 的 策略 是 根据 一 个 正则 表达 式 构造 出 相应 的 


NFA， 然 后 使 用 类 似 于 on-the-fly〈 即 边 构造 边 使 用 的 ) 的 子 集 构造 法 来 
模拟 这 个 NFA 的 执行 。 这 种 模拟 执行 方法 将 在 下 面 给 出 。 


模拟 一 个 NFA 的 执行 。 


输入 : 一 个 以 文件 结束 符 eof 结 尾 的 输入 串 x。 一 个 NFA N， 其 开始 
状态 为 9， 接受 状态 集 为 FE， 转 换 函 数 为 move。 


输出 : 如 果 N 接 受 x 则 返回 “yes”， 人 否则 返回 “no”。 


方法 :这 个 算法 保存 了 一 个 当前 状态 的 集合 S， 即 那些 可 以 从 so 开 
始 沿 着 标号 为 当前 已 读 入 输入 部 分 的 路 径 到 达 的 状态 的 集合 。 如 果 c 是 
函数 nextChar0 读 到 的 下 一 个 输入 字符 ， 那 么 我 们 首先 计算 move (S， 
c) ， 然 后 使 用 E -closure 求 出 这 个 集合 的 财 包 。 该 算法 的 思想 如 图 3-37 
所 示 。 





S = e-closure(so); 

c= nerxtChar!(); 

while (c!= eof ){ 
S = e-closure(move(S, c)); 
c= nertChar(); 


| 
if (SNF!=6)return "yes'"; 
else return "no"; 


1) 
2) 
3) 
4) 
5) 
6) 
7) 
8) 





图 3-37 模拟 一 个 NFA 


3.7.3 NEFA 模 拟 的 效率 


如 果 精 心 实 现 ， 算 法 3.22 可 以 相当 高 效 。 因 为 这 些 高 效 实 现 的 思想 
可 以 用 于 许多 涉及 图 搜索 的 算法 。 我 们 将 更 详细 地 介绍 这 个 实现 。 我 们 
需要 的 数据 结构 包括 : 


1) 两 个 堆栈 ， 其 中 每 一 个 堆栈 都 存放 了 一 个 NFA 状 态 集合 。 其 中 


的 一 个 堆栈 oldStates 存 放 “ 当 前 状态 集合 ”， 即 图 3-37 的 第 4 行 中 右边 的 $S 
的 值 。 为 一 个 堆栈 newStates 存 放 了 “下 一 个 ”状态 集合 ， 即 第 4 行 中 左边 
的 S 的 值 。 在 我 们 运行 第 3 行 到 第 6 行 的 循环 时 ， 中 间 的 一 个 步骤 没有 在 
图 3-37 中 列 出 ， 即 把 newStates 的 值 转移 到 oldSstates 中 去 的 步骤 。 


2) 一 个 以 NFA 状 态 为 下 标的 布尔 数组 alreadyOn。 它 指示 出 哪个 状 
态 已 经 在 newStates 中 。 虽 然 这 个 数组 存放 的 信息 和 栈 中 存放 的 信息 相 
同 ， 但 查询 alreadyOn [sj] 要 比 在 栈 newStates 中 查询 s 快 很 多 。 我 们 同时 
保持 两 种 表示 方法 的 原因 就 是 为 了 获得 这 个 效率 。 


3) 一 个 二 维 数组 move [s，aj]」， 它 保存 这 个 NFA 的 转换 表 。 这 个 
表 中 的 条 目 是 状态 的 集合 ， 它 们 用 链表 表示 。 


为 了 实现 网 3-37 的 第 一 行 ， 我 们 需要 将 alreadyOn 数 组 中 的 所 有 条 目 
都 设置 为 FALSE， 然 后 对 于 E-closure (so) 中 的 每 个 状态 s， 将 s 压 入 
oldStates 并 设置 alreadyOn [s] 为 TRUE。 这 个 对 状态 s 的 操作 以 及 图 3-37 
第 4 行 中 的 操作 ， 都 可 以 使 用 函数 addSstate 〈s) 来 实现 。 这 个 函数 将 s 压 
入 newStates， 将 alreadyOn [sj 设置 为 TRUE， 并 使 用 move Ls，E ] 作为 
参数 递归 地 调用 自身 ， 继 续 计 算 E-closure (s) 的 值 。 然 而 ， 为 了 避免 
重复 工作 ， 我 们 必须 小 心 ， 不 要 对 一 个 已 经 在 栈 newStates 中 的 状态 调用 
addState。 图 3-38 给 出 了 这 个 函数 的 概要 。 








addState(s) { 
将 s 压 入 栈 newStates 中 ; 
alreadyOnls| = TRUE; 


for (上 on movels,e] ) 
if ( !alreadyOmn [ij ) 
addState(t); 





图 3-38 加 入 一 个 不 在 newStates 中 的 新 状态 s 


我 们 通过 查看 oldStates 中 的 每 个 状态 s 来 实现 图 3-37 的 第 4 行 。 我 们 
首先 找 出 状态 集合 move [s，c] ， 其 中 c 是 下 一 个 输入 字符 。 对 于 那些 
不 在 newStates 栈 中 的 状态 ， 我 们 应 用 水 数 addState。 注 意 ，addState 还 计 
算 了 一 个 状态 的 Ee-cdlosure 值 ， 并 把 其 中 的 状态 一 起 加 入 到 newStates 中 


(如 果 这 些 状态 不 存在 的 话 ) 。 这 一 系列 处 理 步 又 如 图 3-39 所 示 。 


16) ”for (oldStates 上 的 每 个 s) { 

dt for (move[s,c| 中 的 每 个 t) 
18) if ( lalreadyOnlt| ) 
19) addStatelt); 
20) 将 s 弹 出 oldStates 栈 ; 
21) ) 


22) ”for (newsStates 中 的 每 个 $s) { 
23) 将 s 弹 出 newStates 栈 ; 
24) 将 s 压 入 oldStates 栈 ; 
25) alreadyOnls| = FALSE; 
26) 





图 3-39 ”图 3-37 中 第 4 步 的 实现 


假定 一 个 NFA N 有 n 个 状态 和 m 个 转换 ， 即 m 是 离开 各 个 状态 的 转 
换 数 的 总 和 。 如 果 不 包括 第 19 行 中 对 addState 的 调用 ， 在 第 16 行 到 第 21 
行 的 循环 上 花费 的 时 间 是 O(n) 。 也 就 是 说 ， 我 们 最 多 需要 运行 这 个 
循环 n 遍 ， 且 如 果 不 考虑 调用 addState 所 花费 的 时 间 ， 每 一 遍 的 工作 量 都 
是 常数 。 对 于 第 22 行 到 第 26 行 的 循环 ， 这 个 结论 也 成 立 。 


在 图 3-39 的 一 次 执行 中 《 即 图 3-37 的 第 4 行 ) ， 对 于 任意 给 定 的 状态 
最 多 只 能 调用 addState 一 次 。 原 因 在 于 每 次 调用 addState 〈s) 时 都 会 在 
图 3-38 的 第 11 行 上 把 alreadyOn [sj] 置 为 TRUE。 一 旦 alreadyOn [sj 设 
为 TRUE， 图 3-38 的 第 13 行 和 图 3-39 的 第 18 行 就 会 禁止 再 次 调用 
addState (s) 。 


如 果 不 考 虑 第 14 行 中 的 递归 调用 所 花费 的 时 间 ， 第 10 行 、 第 11 行 对 
addState 的 一 次 调用 所 花 的 时 间 为 O (1) ， 第 12、13 行 的 时 间 取 决 于 有 
多 少 E 转换 离开 s。 对 于 一 个 给 定 的 状态 ， 我 们 不 知道 这 个 数目 是 多 
少 ， 但 是 我 们 知道 最 多 只 有 m 个 离开 各 个 状态 的 转换 。 因 此 ， 在 图 3-39 
中 代码 的 一 次 执行 中 ， 在 第 12 行 和 13 行 上 用 于 调用 addState 的 累计 时 间 
为 O(m) 。 花 费 在 addState 的 其 他 步 又 的 累计 时 间 为 O(n) ， 因 为 每 一 
次 调用 的 时 间 是 一 个 常数 ， 且 最 多 只 有 n 次 调用 。 




















因此 我 们 可 以 得 出 如 下 结论 ， 即 只 要 实现 方法 得 当 ， 执 行 图 3-37 的 
第 4 行 的 时 间 是 O Cn+tm) 。 从 第 3 行 到 第 6 行 的 while 循 环 的 其 余部 分 在 
每 次 迭代 时 花费 O (1) 时 间 。 如 果 输 入 x 的 长 度 为 k， 那 么 该 循环 的 总 
工作 量 为 O (k (n+m) ) 。 图 3-37 的 第 1 行 的 执行 时 间 为 O Cntm) ， 
为 它 实际 上 就 是 图 3-39 中 的 各 个 步骤 ， 只 不 过 oldstates 中 只 包含 状态 
s0。 第 2、7、8 行 都 花费 O〈1) 时间。 因此， 如 果实 现 正确 ， 算 法 3.22 
的 运行 时 间 为 O(k Cntm) ) 。 也 就 是 说 ， 该 算法 所 需 时 间 和 输入 串 的 
长 度 和 转换 图 的 大 小 〈 结 点 数 加 上 边 数 〉 的 乘积 成 正比 。 


大 0 表示 法 








形 如 O(n) 的 表达 式 是 “最 多 菏 个 常数 乘 以 mm 的 缩写 。 从 撤 术 上 
讲 ， 我 们 说 一 个 函数 f Cn) 是 Og Cn) ) 的 条 件 是 存在 常量 c 利 no 使 
得 当 n>no 时 必然 有 f Cn) <cg Cn) 。 这 里 的 f Cn) 可 能 是 一 个 算法 的 


东 些 步 又 的 运行 时 间 。 一 个 有 用 的 写法 是 “0 (1) ”， 它 表示 "“ 某 个 党 
量 ”。 使 用 大 0 表示 法 可 以 使 得 我 们 不 需要 过 多 地 考虑 使 用 什么 样 的 

se 而 仍然 可 以 表示 一 个 算法 的 运行 时 间 的 增 
长 速度 。 








3.7.4 ”从 正则 表达 式 构 造 NFA 


现在 我 们 给 出 一 个 算法 ， 它 可 以 将 任何 正则 表达 式 转变 为 接受 相同 
语言 的 NFA。 这 个 算法 是 语法 制导 的 ， 也 就 是 说 它 沿 着 正则 表达 式 的 语 
法 分 析 树 目 底 向 上 递归 地 进行 处 理 。 对 于 每 个 子 表达 式 ， 该 算法 构造 一 
个 只 有 一 个 接受 状态 的 NFA。 


RS 后 将 正则 表达 式 转换 为 一 个 NFA 的 McMaughton-Yamada- 
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Thompson 守 -Y 
输入 : 字母 表 2 上 的 一 个 正则 表达 式 r。 


输出 : 一 个 接受 L (r) 的 NFA N。 


方法 : 首先 对 r 进 行 语法 分 析 ， 分 解 出 组 成 它 的 子 表 达 式 。 构 造 一 
个 NFA 的 规则 分 为 基本 规则 和 归纳 规则 两 组 。 基 本 规则 处 理 不 包含 运算 
从 的 子 表 达 式 ， 而 归纳 规则 根据 一 个 给 定 表 达 式 的 直接 子 表达 式 的 NFA 
构造 出 这 个 表达 式 的 NFA。 


基本 规则 ;对 于 表达 式 E， 构 造 下 面 的 NFA。 


start € ©D 
这 里 ，i 是 一 个 新 状态 ， 也 是 这 个 NFA 的 开始 状态 ; f 是 另 一 个 新 状 
， 也 是 这 个 NFA 的 接受 状态 。 


对 于 字母 表 > 中 的 子 表 达 式 8， 构造 下 面 的 NFA。 


start ® 
同样 ，i 和 f 都 是 新 状态 ， 分 别 是 这 个 NFA 的 开始 状态 和 接受 状态 。 


请 注意 ， 在 这 两 个 基本 构造 规则 中 ， 对 于 EE 或 系 个 a 的 作为 r 的 子 表达 式 
的 每 次 出 现 ， 我 们 都 会 使 用 新 状态 分 别 构造 出 一 个 独立 的 NFA。 


归纳 规则 :假设 正则 表达 式 s 和 t 的 NFA 分 别 为 N Cs) 和 N (t) 。 


1) 假设 r=slt，r 的 NFA， 即 N Cr) ， 可 以 按照 图 3-40 中 的 方式 构造 
得 到 。 这 里 i 和 f 是 新 状态 ， 分 别 是 N(r) 的 开始 状态 和 接受 状态 。 从 i 到 
N (s) 和 N (t) 的 开始 状态 各 有 一 个 Ee 转 换 ， 从 N (s) 和 N (t) 到 接 
受 状态 f 也 各 有 一 个 Ee 转换 。 请 注意 ，N (s) 和 N (t) 的 接受 状态 在 
N (r) 中 不 是 接受 状态 。 因 为 从 i 到 f 的 任何 路 径 要 么 只 通过 N (s) ， 要 
么 只 通过 N (t) ， 且 离开 ji 或 进入 { 的 E 转 换 都 不 会 改变 路 径 上 的 标号 ， 
因此 我 们 可 以 判定 N Cr) 识别 L (s) UL (t) ， 也 就 是 L (r) 。 也 就 是 
说 ， 图 3-40 中 的 NFA 是 一 个 正确 的 处 理 并 运算 符 的 构造 。 


+ 











图 3-40 两 个 正则 表达 式 的 并 的 NFA 


2) 假设 r=st， 然 后 按照 图 3-41 所 示 构 造 N (r) 。N (s) 的 开始 状态 
变 成 了 N (r) 的 开始 状态 。N (t) 的 接受 状态 成 为 N (Cr) 的 唯一 接受 状 
态 。N(s) 的 接受 状态 和 N (〈t) 的 开始 状态 合并 为 一 个 状态 ， 合 并 后 的 
状态 拥有 原来 进入 和 离开 合并 前 的 两 个 状态 的 全 部 转换 。 图 3-41 中 一 条 
从 i 到 f 的 路 径 必 须 首先 经 过 N 〈s) ， 因 此 这 条 路 径 的 标号 以 L (s) 中 的 
某 个 串 开 始 。 然 后 ， 这 条 路 径 继续 通过 N (t) ， 因 此 这 条 路 径 的 标号 以 
L(t) 中 的 某 个 串 结 束 。 就 像 我 们 很 快要 论证 的 ， 没 有 转换 离开 构造 得 
到 的 接受 状态 ， 也 没有 转换 进入 开始 状态 ， 因 此 一 个 路 径 不 可 能 在 离开 
N (s) 后 再 次 进入 N (s) 。 因 此 ，N (Cr) 恰好 接受 L (s) L (t) ， 它 是 
r=st 的 一 个 正确 的 NFA。 


wo 


图 3-41 两 个 正则 表达 式 的 连接 的 NFA 


3) 假设 r=s*"， 然 后 为 构造 出 图 3-42 所 示 的 NFA N (7) 。 这 里 ，i 和 
f 是 两 个 新 状态 ， 分 别 是 N〈(r) 的 开始 状态 和 唯一 的 接受 状态 。 要 从 i 到 
达 f， 我 们 可 以 沿 着 新 引入 的 标号 为 Ee 的 路 径 前 进 ， 这 个 路 径 对 应 于 
EL (s) 0 中 的 一 个 串 。 我 们 也 可 以 到 达 N 〈s) 的 开始 状态 ， 然 后 经 过 该 
NFA， 再 零 次 或 多 次 从 它 的 接受 状态 回 到 它 的 开始 状态 并 重复 上 述 过 
程 。 这 些 选项 使 得 N (r) 可 以 接受 L (s) !、L (s) “等 集合 中 的 所 有 
串 ， 因 此 N (r) 识别 的 所 有 串 的 集合 就 是 L (s)“。 














图 3-42 一 个 正则 表达 式 的 闭 包 的 NFA 


4) 最 后 ， 假 设 r= (s) ， 那 么 L (r) =L (s) ， 我 们 可 以 直接 把 
N (50: 区 作 N (0) 5 


算法 3.23 中 描述 的 方法 包含 了 一 些 提示 ， 说 明 为 什么 这 个 归纳 性 构 
造 方法 能 够 得 到 正确 的 解答 。 我 们 不 会 给 出 正式 的 正确 性 证 明 。 但 除了 
最 重要 的 性 质 ， 即 N (r) 接受 语言 L (Cr) 之 外 ， 我 们 还 在 下 面 列 出 一 些 
由 该 算法 构造 得 到 的 NFA 所 具有 的 性 质 。 这 些 性 质 本 喘 也 很 有 趣 ， 并 且 
有 助 于 正式 证 明 这 个 方法 的 正确 性 。 


1) N (Cr) 的 状态 数 最 多 为 r 中 出 现 的 运算 符 和 运算 分 量 的 总 数 的 2 
者。 得 出 这 个 上 有 界 的 原因 是 算法 的 每 一 个 构造 步骤 最 多 只 引入 两 个 新 状 








证 五 


2) N (r) 有 且 只 有 一 个 开始 状态 和 一 个 接受 状态 。 接 受 状 态 没 有 
出 边 ， 开 始 状 态 没 有 入 边 。 


3) N(r) 中 除 接受 状态 之 外 的 每 个 状态 要 么 有 一 条 其 标号 为 2 中 符 
号 的 出 边 ， 要 么 有 两 条 标号 为 的 出 边 。 


J 让 我 们 用 算法 3.23 为 正则 表达 式 r= (alb) "abb 构 造 一 个 NFA。 
3-43 哟 示 了 rf 的 一 标语 法 分 析 树 ， 这 栋 树 和 2.2.3 节 中 构造 的 算术 表达 式 
的 语法 分 析 树 相似 。 对 于 子 表达 式 m， 即 第 一 个 a， 我 们 构造 如 下 的 
NFA: 
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nl 


a 
2 | 
Ha | 
2 
2 | 
7 
| 
3 b 


图 3-43 (a|b) “abb 的 语法 分 析 树 


我 们 在 选择 这 个 NFA 中 的 状态 编写 时 考虑 了 和 接 下 来 生成 的 NFA 的 
状态 编号 之 间 的 一 致 性 。 对 mm 构造 如 下 NFA: 


start 四 b 全 
现在 我 们 可 以 使 用 图 3-40 中 的 构造 方法 ， 将 N Cr) 和 N (r,) 合 


并 ， 得 到 rs = rr 的 NFA。 这 个 NFA 显 示 在 图 3-44 中 。 


子 表 达 式 m4 = (rs3) 的 NFA 和 rs 的 NFA 相 同 。 子 表达 式 rs= (rs3)“ 的 
NFA 的 构造 如 图 3-45 所 示 。 我 们 使 用 图 3-42 所 示 的 方法 根据 图 3-44 中 的 
NFA 构 造 出 这 个 NFA。 


£ :人 


图 3-44 rs 的 NFA 





图 3-45 rs 的 NFA 





现在 考虑 r6。， 它 是 表达 式 中 的 男 一 个 a。 我 们 再 次 对 a 使 用 基本 构造 
法 ， 但 是 必须 使 用 新 的 状态 。 虽 然 r 和 r6 是 相同 的 表达 式 ， 但 这 个 构造 
方法 不 允许 我 们 复 用 那个 为 "构造 的 NFA。rg 的 NFA 如 下 : 


Start © 


要 得 到 ry =rsre 的 NFA， 我 们 应 用 图 3-41 中 的 构造 方法 ， 将 状态 7 和 
7 合并 ， 得 到 如 图 3-46 所 示 的 NFA。 按 照 这 个 方法 继续 构造 出 两 个 分 别 


名 为 rr 和 ro、 对 应 于 子 表达 式 b 的 新 NFA， 最 后 构造 出 如 图 3-34 所 示 的 
(alb) “abb 的 NFA。 





图 3-46 rt 的 NFA 


3.7.5 ”字符 串 处 理 算法 的 效率 


我 们 看 到 ， 算 法 3.18 能 在 O (x|) 时 间 内 处 理 字符 串 x， 而 在 3.7.3 节 
中 我 们 提 到 ， 要 模拟 一 个 NFA 的 运行 所 需 的 时 间 与 | 和 该 NFA 的 转换 图 
的 大 小 的 乘积 成 正比 。 很 明显 ， 用 DFA 来 模拟 比 用 NFA 模 拟 更 快 ， 因 此 
我 们 可 能 会 怀疑 模拟 一 个 NFA 到 底 有 没有 意义 。 


支持 使 用 NFA 模 拟 的 论据 之 一 是 子 集 构造 法 在 最 坏 的 情况 下 可 能 会 
使 状态 个 数 呈 指数 增长 。 虽 然 原则 上 DFA 的 状态 数 不 会 影响 算法 3.18 的 
运行 时 间 ， 但 是 假如 状态 数 大 到 一 定 程度 ， 以 至 于 转换 表 超 过 了 主 存 容 
显著 增加 。 


[8 考虑 形 如 L= (alb) “a (alb) ™! 的 正则 表达 式 所 描述 的 语言 
族 。 也 就 是 说 ， 每 个 语言 Lu 包含 了 所 有 由 a 和 hb 组 成 且 从 右 端 向 左 数 第 n 
个 符号 是 a 的 串 。 很 容易 构造 出 一 个 具有 n+1 个 状态 的 NFA。 它 在 任何 输 
入 符号 上 都 可 以 停留 在 其 初始 状态 ， 但 是 当 输 入 为 a 时 也 可 以 到 达 状 态 











1。 在 处 于 状态 1 时 ， 它 在 任何 输入 符 写 上 痢 会 转 到 状态 2， 以 此 类 推 ， 
当 到 达 状 态 n 时 它 接 受 输入 串 。 图 3-47 给 出 了 这 个 NFA。 


start a OD) ab 2 a,b ,. a,b 乔 a,b @) 


图 3-47 一 个 NFA， 它 的 状态 数量 远 小 于 等 价 的 最 小 DFA 的 状态 数 


然而 ，La 的 任何 一 个 DFA 都 至 少 有 22 个 状态 。 我 们 不 证 明 这 个 绪 
论 ， 只 六 明 其 基本 思想 。 假 设 两 个 长 度 均 为 n 的 串 到 达 DFA 的 同一 个 状 
态 ， 必 然 存 在 一 些 位 置 使 得 两 个 串 在 这 些 位 置 上 的 符号 不 同 《〈 必 然 一 个 
古 a 而 另 一 个 是 b) 。 我 们 考虑 最 后 一 个 这 样 的 位 置 。 我 们 可 以 不 断 把 相 
同 的 符号 同时 添加 到 这 两 个 串 的 后 面 ， 直 到 它们 的 最 后 n-1 个 位 置 上 的 
符号 串 相 同 ， 但 是 倒数 第 n 个 位 置 上 的 符号 不 同 。 那 么 这 个 DFA 在 处 理 
这 两 个 (经 过 扩展 的 ) 符号 串 时 会 到 达 同 一 个 状态 (因为 根据 假设 ， 此 
DFA 在 处 理 未 经 扩展 的 两 个 串 时 到 达 同 一 个 状态 ， 而 对 这 两 个 串 的 扩展 
方法 相同 一 一 译 者 注 ) 。 此 时 这 个 DFA 要 么 同时 接受 这 两 个 符号 串 ， 要 
么 都 不 接受 这 两 个 符号 串 。 注意 这 两 个 符号 串 的 倒数 第 n 个 符号 是 不 
同 的 ， 它 们 应 该 有 且 只 有 一 个 串 在 这 个 语言 中 ， 由 此 得 出 矛盾 。 这 说 明 
任意 两 个 长 度 为 n 的 不 同 符号 串 应 该 到 达 不 同 的 状态 。 而 长 度 为 n 的 符号 
串 共 有 2 个 ， 也 就 是 次 至 少 要 有 22 个 状态 一 一 译 者 注 。) 亚运 的 是 ， 如 
我 们 前 面 提 到 的 ， 词 法 分 析 很 少 需要 处 理 这 种 类 型 的 模式 ， 我 们 也 不 用 
担心 会 遇 到 状态 数量 出 奇 多 的 DFA。 


然而 ， 词 法 分 析 器 生成 工具 和 其 他 字符 串 处 理 系统 经 第 以 正则 表达 
式 作为 输入 。 我 们 面临 着 将 正则 表达 式 转换 成 DFA 还 是 NFA 的 问题 。 转 
换 成 DFA 的 额外 开销 是 在 将 算法 3.20 应 用 于 转换 得 到 的 NFA 而 产生 的 开 
销 (也 可 以 将 一 个 正则 表达 式 和 直接 转化 为 DFA， 但 工作 量 实质 上 古 一 样 
的 ) 。 如 果 字 符 串 处 理 器 被 频繁 使 用 ， 比 如 词法 分 析 器 ， 那 么 转换 到 
DFA 时 付出 的 任何 代价 都 是 值得 的 。 然 而 在 男 一 些 字符 串 处 理应 用 中 ， 
例如 grep， 用 户 指 定 一 个 正则 表达 式 ， 并 在 一 个 或 多 个 文件 中 搜索 这 个 
表达 式 所 描述 的 模式 ， 那 么 跳 过 构造 的 DFA 步 又 直接 模拟 NFA 可 能 更 加 


高 效 。 


现在 我 们 考虑 用 算法 3.23 把 正则 表达 式 r 转 换 成 相应 的 NFA 的 代价 。 








其 关键 步骤 是 构造 r 的 语法 分 析 树 。 在 第 4 章 中 我 们 会 看 到 几 种 可 以 在 线 
性 时 间 内 构造 语法 分 析 树 的 方法 ， 即 在 O (rl) 时间 内 完成 语法 分 析 树 
的 构造 ， 其 中 |r| 表 示 r 的 大 小 ， 也 就 是 r 中 运算 符 和 运算 分 量 的 上 总和。 我 
们 也 很 容易 发 现 每 次 应 用 算法 3.23 中 的 基本 规则 和 归纳 规则 只 需要 常数 
时 间 ， 因 此 转换 得 到 一 个 NFA 所 花费 的 全 部 时 间 是 O 〈 叫 ) 。 


此 外 ， 如 我 们 在 3.7.4 节 中 观察 到 的 ， 构 造 得 到 的 NFA 最 多 有 2|r| 个 
状态 和 4|r| 个 转换 。 也 就 是 说 ， 根 据 3.7.3 节 中 的 分 析 ， 可 以 得 到 n<2|r| 和 
m<4]r|。 因 此 ， 模 拟 这 个 NFA 处 理 输入 字符 串 x 的 过 程 所 花费 时 间 是 
Ol|r|x|x|〉 。 这 个 时 间 远 远 超过 构造 NFA 所 用 的 时 间 O (rl|)〉 。 因 此 ， 
我 们 得 到 ， 对 于 正则 表达 式 r 和 字符 串 x， 能 够 在 O (rjx|x|) 时 间 内 判断 
X 是 合 属于 L (r) 。 


子 集 构 造 法 所 花费 的 时 间 很 大 程度 上 取决 于 构造 得 到 的 DFA 的 状态 
数 。 首 先 注意 在 图 3-22 所 示 的 子 集结 构 法 中 ， 算 法 的 关键 步骤 ， 即 根据 
状态 集 T 和 输入 符号 a 构建 状态 集 U 的 过 程 与 算法 3.22 的 NFA 模 拟 方法 中 
根据 旧 状 态 集 构造 新 状态 集 的 过 程 类 似 。 我 们 已 经 知道 ， 如 果实 现 得 
当 ， 这 个 步骤 所 花 的 时 间 最 多 和 NEFA 状 态 数 与 转换 数 之 和 成 正比 。 


假设 我 们 要 从 一 个 正则 表达 式 r 开 始 ， 并 将 它 构 造成 一 个 NFA。 这 
个 NFA 最 多 有 2|r| 个 状态 和 4 和 | 个 转换 ， 并 且 最 多 有 2|r| 个 输入 符号 。 
此 ， 对 于 每 个 构造 得 到 的 DFA 状 态 ， 我 们 最 多 必须 构造 lr| 个 新 状态 ， 构 
造 每 个 新 状态 最 多 花费 O (2|rl+4]r|) 时 间 。 因 此 ， 构 造 一 个 有 s 个 状态 的 
DFA 所 用 的 时 间 为 O (|rl*s〉。 


在 通常 情况 下 ，s 大 约 等 于 |r|， 上 面 的 子 集 构造 法 需要 的 时 间 为 
O (中 )。 然 而 ， 在 如 例 3.25 所 示 的 最 坏 情况 下 ， 这 个 时 间 是 
O 上 2 。 当 我 们 需要 构造 一 个 识别 器 来 指明 一 个 或 多 个 串 x 是 否 在 
一 个 给 定 的 正则 表达 式 r 所 定义 的 L 〈r) 中 时 ， 我们 有 多 个 选项 。 图 3-48 
对 这 些 选项 作 了 总 结 。 

















每 个 串 的 开 铺 


NFA Olr)|) O(lr| x |z)) 


DFA typical case | O(Ir|’) O(|z|) 
DFA worst case | O(|r|221"|) O(|z|) 





图 3-48 识别 一 个 正则 表达 式 所 表示 的 语言 的 不 同方 法 所 具有 的 初始 开销 和 单个 串 的 开销 


如 琳 处 理 各 个 字符 串 所 花 的 时 间 多 很 多 ， 比 如 我 们 构造 词法 分 析 器 
时 面临 的 情况 ， 我 们 显然 倾向 于 使 用 DFA。 然 而 ， 在 像 grep 这 样 的 命令 
中 ， 我 们 只 会 对 一 个 符号 串 运行 这 个 自动 机 。 此 时 我 们 通 第 倾向 于 使 用 
NEFA 方 式 。 只 有 当 |x| 接 近 中 的 时 候 ， 我 们 才 会 考虑 转换 到 DFA。 


还 有 一 种 混合 策略 可 以 做 到 对 每 个 正则 表达 式 r 和 输入 串 x， 它 的 效 
率 总 是 和 DFA 和 NFA 方 法 中 较 好 的 一 个 差不多 。 这 个 策略 从 模拟 NFA 开 
始 ， 但 是 在 计算 出 各 个 状态 集 ( 也 就 是 DFA 的 状态 ) 和 转换 的 同时 把 它 
们 记录 下 来 。 在 模拟 中 每 次 处 理 此 NFA 的 当前 状态 集合 和 当前 输入 符号 
之 前 ， 首 先 查 看 我 们 是 否 已 经 计算 了 这 个 转换 。 如 果 是 ， 就 直接 使 用 这 


个 信息 。 





3.7.6 3.7 节 的 练习 


练习 3.7.1: 将 下 列 图 中 的 NFA 转 换 为 DFA。 

1) 图 3-26 

2) 图 3-29 

3) 图 3-30 

练习 3.7.2: 用 算法 3.22 模 拟 下 列 图 中 的 NFA 在 处 理 输入 aabb 时 的 过 


1) 图 3-29 


2) 图 3-30 

练习 3.7.3: 使 用 算法 3.23 和 3.20 将 下 列 正则 表达 式 转换 成 DFA。 
1) (alb) ” 

2) (arlb")“ 

3) El bY 


4) (alb) “abb (alb) ” 





3.8 词法 分 析 器 生成 工具 的 设计 





本 节 中 我 们 将 应 用 3.7 节 中 介绍 的 技术 ， 讨 论 像 Lex 这 样 的 词法 分 析 
虱 生 成 工具 的 体系 结构 。 我 们 将 讨论 两 种 分 别 基于 NFA 和 DFA 的 方法 ， 
后 者 实质 上 就 是 Lex 的 实现 方法 。 


3.8.1 生成 的 词法 分 析 器 的 结构 


图 3-49 概 括 了 由 Lex 生 成 的 词法 分 析 圳 的 体系 结构 。 作 为 词法 分 析 
器 的 程序 包含 一 个 固定 的 模拟 目 动 机 的 程序 。 现 在 我 们 暂时 不 规定 这 个 
目 动机 是 确定 的 还 是 不 确定 的 。 词 法 分 析 志 的 其 他 部 分 是 由 Lex 根 据 Lex 
程序 创建 的 组 件 组 成 的 。 


输入 缓冲 区 





图 3-49 一 个 Lex 程 序 被 转变 成 由 有 限 自动 机 模拟 器 使 用 的 转换 表 和 动作 
这 些 组 件 包括 : 
1) 表示 目 动 机 的 一 个 转换 表 。 


2) 由 Lex 编 译 器 从 Lex 程 序 中 直接 拷贝 到 输出 文件 的 函数 〈 见 3.5.2 
节 的 讨论 ) 


3) 输入 程序 定义 的 动作 。 这 些 动作 是 一 些 代 码 片段 ， 将 在 适当 的 
时 候 由 目 动 机 模拟 器 调用 。 


在 构建 自动 机 时 ， 我 们 首先 用 算法 3.23 把 Lex 程 序 中 的 每 个 正则 表 
达 式 模式 转换 为 一 个 NFA。 我 们 需要 使 用 一 个 自动 机 来 识别 所 有 与 Lex 
程序 中 的 模式 相 匹 配 的 词素 ， 因 此 我 们 将 这 些 NFA 合 并 为 一 个 NFA。 合 
并 的 方法 是 引入 一 个 新 的 开始 状态 ， 从 这 个 新 开始 状态 到 各 个 对 应 于 模 
式 pi 的 NFA Ni 的 开始 状态 各 有 一 个 皇 转 换 。 构 造 方法 如 图 3-50 所 示 。 


我 们 将 使 用 如 下 所 述 的 简单 、 抽 象 的 例子 来 说 明 本 节 所 要 说 明 





a {模式 pi 的 动作 Ai} 
abb {模式 p, 的 动作 A,} 
ab” {模式 ps 的 动作 A;} 


请 注意 ， 上 述 三 个 模式 之 间 存 在 我 们 在 3.5.3 节 中 讨论 过 的 冲突 。 更 
明确 地 说 ， 字 符 串 abb 同 时 满足 第 二 个 和 第 三 个 模式 ， 但 是 我 们 将 把 它 
看 作 模 式 p, 的 词素 ， 因 为 在 上 面 的 Lex 程 序 中 首先 列 出 的 是 模式 p,。 像 
aabbb... 这 样 的 输入 串 有 很 多 前 级 都 满足 第 三 个 模式 ，Lex 的 规则 是 接受 
最 长 的 前 级 ， 因 此 我 们 不 断 读 入 b， 直 到 另 一 个 a 出 现 为 止 。 此 时 我 们 报 
告 识 别 的 词素 束 是 从 第 一 个 a 开始 的 、 包 含 了 其 后 所 有 b 的 符号 串 。 








图 3-50 根据 Lex 程 序 构造 得 到 的 一 个 NFA 


图 3-51 列 出 了 分 别 识别 这 三 个 模式 的 NFA。 其 中 第 三 个 NFA 是 根据 
算法 3.23 的 转换 结果 经 简化 得 到 的 。 然 后 ， 图 3-52 显 示 了 通过 加 入 一 个 
新 开始 状态 0 和 3 个 Ee 转换 将 这 三 个 NFA 合 并 后 得 到 的 单个 NFA。 





图 3-51 a、abb 和 ab+ 的 NFA 


全 





图 3-52 合并 后 的 NFA 


3.8.2 ”基于 NEFA 的 模式 匹配 


如 果 词 法 分 析 器 模拟 了 像 一 个 图 3-52 所 示 的 NFA， 那 么 它 必 须 从 它 
的 输入 中 lexemeBegin 所 指 的 位 置 开始 读 取 输入 。 当 它 在 输入 中 同 前 移 
动 forward 指 针 时 ， 它 在 每 个 位 置 上 根据 算法 3.22 计 算 当 前 的 状态 集 。 


在 这 个 模拟 NFA 运 行 的 过 程 中 ， 最 终 会 到 达 一 个 没有 后 续 状态 的 输 
入 点。 那 时 ， 不 可 能 有 任何 更 长 的 输入 前 缀 使 得 这 个 NFA 到 达 茶 个 接受 
状态 ， 此 后 的 状态 集 将 一 直 为 空 。 于 是 ， 我 们 就 可 以 判定 最 长 前 级 与 
东 个 模式 匹配 的 词素 ) 是 什么 。 


我 们 沿 着 状态 集 的 顺序 回头 寻找 ， 直 到 找到 一 个 包含 一 个 或 多 个 接 
受 状态 的 集合 为 止 。 如 采集 合 中 有 多 个 接受 状态 ， 我 们 束 选 择 和 在 Lex 
程序 中 位 置 最 靠 前 的 模式 相关 联 的 那个 接受 状态 pi。 我 们 将 forward 指 针 
移 回 到 词素 末尾 ， 同 时 执行 与 p; 相关 联 的 动作 Ai。 


假设 我 们 有 例 3.26 所 示 的 模式 ， 并 且 输 入 字符 串 以 aaba 开 头 。 
[ 3.52 中 的 NFA 从 初始 状态 0 的 会 - 财 包 ， 即 {0，1，3，7}， 开 始 处 
理 输入 ， 那 么 它 进 入 的 状态 集合 的 序列 如 图 3-53 所 示 。 在 读 入 第 四 个 输 
入 符号 之 后 ， 我 们 处 于 一 个 空 状态 集中 ， 因 为 在 图 3-52 中 没有 在 输入 a 
上 离开 状态 8 的 转换 。 


























米 下 十 
a 六 a b ab a 





图 3-53 ”在 处 理 输入 aaba 时 进入 的 状态 集 的 序列 


因此 ， 我 们 要 问 回 寻找 一 个 包含 了 茶 个 接受 状态 的 状态 集 。 请 注 
意 ， 如 图 3-53 所 示 ， 在 读 入 a 之 后 ， 我 们 所 在 的 状态 集 包 含 状态 2， 这 表 
明 模 式 a 已 经 被 匹配 。 然 而 在 读 入 aab 之 后 ， 我 们 在 状态 8 中 ， 这 表明 模 
式 a pb-* 被 匹配 ， 前 缀 aab 是 最 长 的 使 我 们 到 达 某 个 接受 状态 的 前 绥 。 
此 我 们 选择 aab 作 为 被 识别 的 词 系 ， 并 且 执 行 A3。 这 个 动作 应 该 包含 一 





个 返回 语句 ， 向 语法 分 析 器 指明 已 经 找到 了 一 个 模式 为 ps=ab- 的 词法 
单元 。 


3.8.3 ”词法 分 析 器 使 用 的 DFA 


另 一 种 体系 结构 和 Lex 的 输出 相似 ， 它 使 用 算法 3.20 中 的 子 集 构造 
法 将 表示 所 有 模式 的 NFA 转 换 为 等 价 的 DFA。 在 DFA 的 每 个 状态 中 ， 如 
果 该 状态 包含 一 个 或 多 个 NFA 的 接受 状态 ， 那 么 就 要 确定 哪些 模式 的 接 
受 状 态 出 现在 此 DFA 状 态 中 ， 并 找 出 第 一 个 这 样 的 模式 。 然 后 将 该 模式 
作为 这 个 DFA 状 态 的 输出 。 


2E 光 2】 使 用 子 集 构造 法 可 以 根据 图 3-52 中 的 NFA 构 造 得 到 一 个 DFA。 
六 3-54 显 示 了 这 个 DFA 的 一 个 转换 图 。 图 中 的 接受 状态 都 用 该 状态 所 标 
识 的 模式 作为 标号 。 例 如 ， 状 态 {6，8} 有 两 个 接受 状态 ， 分 别 对 应 于 模 
式 abb 和 a b+。 由 于 前 一 个 模式 先 被 列 出 ， 因 此 该 模式 就 是 状态 {6，8} 
所 关联 的 模式 。 





start 





a*b+ abb a*b+ 


图 3-54 ”处 理 模式 a、abb 和 a*b! 的 DFA 的 转换 图 


在 词法 分 析 器 中 ， 我 们 使 用 DFA 的 方法 与 使 用 NFA 的 方法 很 相似 。 
我 们 模拟 这 个 DFA 的 运行 ， 直 到 在 某 一 点 上 没有 后 续 状 态 为 止 《〈 严 格 地 
说 应 该 是 下 一 个 状态 为 G6， 即 对 应 于 空 的 NFA 状 态 集合 的 死 状 态 ) 。 此 
时 ， 我 们 回头 查找 我 们 进入 过 的 状态 厅 列 ， 一 旦 找到 接受 状态 就 执行 与 
该 状态 对 应 的 模式 相关 联 的 动作 。 





假设 图 3-54 中 的 DFA 的 输入 为 abba。 处 理 输入 时 进入 过 的 状态 
子 名 为 0137、247、58、68。 在 读 入 最 后 一 个 a 时 ， 没 有 离开 状态 68 的 相 
应 转换 。 因 此 ， 我 们 从 后 向 前 考察 这 个 状态 序列 。 在 这 个 例子 中 ，68 本 
身 就 是 一 个 接受 状态 ， 对 应 于 模式 p,=abb。 





3.8.4 实现 癌 前 看 运算 符 





回顾 3.5.4 节 可 知 ，Lex 模 式 rr 中 的 Lex 疝 前 看 运算 符 / 是 必 不 可 少 
的 。 因 为 有 时 为 了 正确 地 识别 某 个 词法 单元 的 实际 词素 ， 我 们 需要 指明 
在 这 个 词法 单元 的 模式 rl 之 后 必须 跟着 模式 r,。 在 将 模式 rj/r, 转 化 成 NFA 
时 ， 我 们 把 /看 成 e ， 因 此 我 们 实际 上 不 会 在 输入 中 查找 /。 然 而 ， 如 果 
NFA 发 现 输 入 缓冲 区 的 一 个 前 缀 xy 和 这 个 正则 表达 式 匹配 时 ， 这 个 词素 
的 末尾 并 不 在 这 个 NFA 进 入 接受 状态 的 地 方 。 实 际 上 ， 这 个 末尾 是 在 此 
NFA 进 入 满足 如 下 条 件 的 状态 s 的 地 方 : 


1) s 在 (假想 的 ) /上 有 一 个 Ee 转换 。 


2) 有 一 条 从 NFA 的 开始 状态 到 状态 s (相应 标号 序列 为 x〉 的 路 
径 ， 





3) 有 一 条 从 状态 s 到 NEFA 的 接受 状态 〈 相 应 标号 序列 为 y) 的 路 
径 。 


4) 在 所 有 满足 条 件 1 一 3 的 xy 中 ，x 尽 可 能 长 。 


如 果 这 个 NFA 中 只 有 一 个 在 假想 的 /上 的 Ee 转换 状态 ， 那 么 就 如 例 
3.30 所 示 ， 词 到 的 末尾 出 现在 最 后 一 次 进入 该 状态 的 地 方 。 如 果 NFA 在 
,0 多 个 Ee 转 换 状 态 ， 那 么 如 何 寻 找 正确 的 状态 s 的 问题 就 会 变 
得 困难 得 多 。 


图 3-55 的 NFA 识 别 例 3.13 中 给 出 的 IF 模 式 。 这 个 模式 使 用 了 问 
挤 看 运算 符 。 请 注意 ， 从 状态 2 到 状态 3 的 Ee 转换 就 代表 这 个 向 前 看 运算 
符 。 状 态 6 表明 关键 字 正 的 出 现 。 然 而 ， 当 进入 状态 6 时 ， 我 们 需要 向 回 
扫描 到 最 晚 出 现 的 状态 2 才 可 以 找到 词素 IF。 





any 
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图 3-55 识别 关键 字 IF 的 NFA 


DFA 中 的 死 状 态 


从 技术 上 讲 ， 图 3-54 中 的 自动 机 并 不 是 一 个 真正 的 DFA。 因 为 
DFA 中 的 每 个 状态 在 它 的 输入 字母 表 中 的 每 个 符号 上 都 有 一 个 离开 转 
换 。 这 里 我 们 省 略 了 到 达 死 状态 g 的 转换 ， 并 且 我 们 也 省 略 了 从 这 个 
死 状 态 出 发 、 在 所 有 输入 符号 上 到 达 其 自身 的 转换 。 前 面 的 NFA 到 
DFA 转 换 的 例子 中 不 存在 从 开始 状态 到 达 G 的 路 径 ， 但 是 图 3-52 中 的 
NFA 有 这 样 的 路 径 。 


然而 ， 当 我 们 构造 一 个 用 于 词法 分 析 器 的 DFA 时 ， 重 要 的 是 ， 我 
们 必须 用 不 同 的 方式 来 处 理 死 状态 ， 因 为 我 们 必须 知道 什么 时 候 已 经 
不 可 能 识别 到 更 长 的 词素 了 。 因 此 我 们 建议 省 略 到 达 死 状态 的 转换 ， 
并 消除 死 状态 本 身 。 实 际 上 这 个 问题 要 比 看 起 来 困难 一 些 ， 因 为 一 个 
NFA 到 DFA 的 构造 过 程 可 能 会 产生 多 个 不 可 能 到 达 接 受 状 态 的 DFA 
状态 。 我 们 必须 知道 何 时 到 达 了 一 个 这 样 的 状态 。3.9.6 节 讨论 了 如 何 
将 这 些 状 态 合并 为 一 个 死 状态 ， 这 使 得 识别 这 些 状 态 变 得 容易 。 还 要 
指出 的 是 ， 如 果 我 们 使 用 算法 3.20 和 3.23 根 据 一 个 正则 表达 式 构造 出 
i 000 0 














3.8.5 3.8 节 的 练习 


练习 3.8.1: 假设 我 们 有 两 个 词法 单元 ; (1) 关键 字 if，“〔2) 标识 
从， 它 表示 除 if 之 外 的 所 有 由 字母 组 成 的 串 。 请 给 出 : 


1) 识别 这 些 词法 单元 的 NFA。 


2) 识别 这 些 词法 单元 的 DFA。 


练习 3.8.2: 对 如 下 的 词法 单元 重复 练习 3.8.1: 〈1) 关键 字 while， 
(2) 关键 字 when， 〈3) 标识 符 ， 它 代表 以 字母 开头 、 由 字母 和 数位 组 
成 的 字符 串 。 

! 练习 3.8.3: 假设 我 们 修正 DFA 的 定义 ， 使 得 每 个 状态 在 每 个 输入 
符号 上 有 零 个 或 一 个 转换 《而 不 是 像 标准 的 DFA 定 义 中 那样 恰好 有 一 个 
转换 ) 。 那 么 ， 有 些 正则 表达 式 就 可 以 具有 相 比 按 标准 定义 构造 得 到 的 
DEFA 而 言 更 小 的 *DFA”。 给 出 这 种 正则 表达 式 的 一 个 例子 。 


! ! 练习 3.8.4: 设计 一 个 算法 来 识别 形 如 mm 的 Lex 回 前 看 模式 ， 
其 中 m 和 m 都 是 正则 表达 式 。 说 明 该 算法 如 何 处 理 如 下 输入 : 





1) 《abcdlabc) /d 
2) (alab) /ba 


3) aa /a 


3.9 基于 DEFA 的 模式 匹配 器 的 优化 


我 们 将 在 本 节 中 给 出 三 个 算法 ， 这 些 算法 用 于 实现 和 优化 根据 正则 
表达 式 构 造 得 到 的 模式 匹配 器 。 


1) 第 一 个 算法 可 以 用 于 Lex 编 译 器 ， 因 为 它 不 需 构 造 中 间 的 NFA 就 
可 以 根据 一 个 正则 表达 式 直 接 构造 得 到 DFA。 同 时 ， 得 到 的 DFA 的 状态 
数 也 比 通过 NFA 构 造 得 到 的 DFA 的 状态 数 少 。 


2) 第 二 个 算法 可 以 将 任何 DFA 中 具有 相同 未 来 行为 的 多 个 状态 合 
并 ， 从 而 使 该 DFA 的 状态 数量 减 到 了 最少 。 这 个 算法 本 里 相当 局 效 ， 它 的 
时 间 复 杂 度 仅 有 O 《nlogn) ， 其 中 n 是 被 处 理 的 DFA 的 状态 数量 。 


3) 第 三 个 算法 可 以 生成 比 标准 二 维 表 更 加 紧凑 的 转换 表 的 表示 方 
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3.9.1 NFA 的 重要 状态 





在 讨论 如 何 根 据 一 个 正则 表达 式 直 接生 成 DFA 之 前 ， 我 们 必须 首先 
深入 分 析 算 法 3.23 构 建 NFA 的 过 程 ， 并 考虑 各 种 状态 所 扮演 的 角色 。 如 
果 一 个 NFA 状 态 有 一 个 标号 非 & 的 离开 转换 ， 那 么 我 们 称 这 个 状态 是 重 
要 状态 (important state) 。 请 注意 ， 子 集 构 造 法 〈 算 法 3.20) 在 计算 Ee- 
closure (move (T，a) ) 〈 即 可 以 从 TI 出 发 在 输入 a 上 到 达 的 状态 的 集 
合 ) 的 时 候 ， 它 只 使 用 了 集合 IT 中 的 重要 状态 。 也 就 是 说 ， 只 有 当 状 态 s 
是 重要 的 ， 状 态 集 合 move (s，a) 才 可 能 是 非 空 的 。 在 子 集 构造 法 的 应 
用 过 程 中 ， 两 个 NFA 状 态 集合 可 以 被 认为 是 一 致 的 〈 即 把 它们 当 作 同一 
个 集合 来 处 理 ) 条 件 是 它们 : 


1) 具有 相同 的 的 重要 状态 ， 且 
2) 要 么 都 包含 接受 状态 ， 要 么 都 不 包含 接受 状态 。 
如 果 这 个 NFA 是 使 用 算法 3.23 根 据 一 个 正则 表达 式 生 成 的 ， 那 么 我 











们 还 可 以 指出 更 多 的 关于 重要 状态 的 性 质 。 重 要 状态 只 包括 在 基础 规则 
部 分 为 正则 表达 陈 中 东 个 特定 符号 位 置 引 入 的 初始 状态 。 也 就 是 说 ， 
个 重要 状态 对 应 于 正则 表达 式 中 的 茶 个 运算 分 量 。 


此 外 ， 构 造 得 到 的 NFA 只 有 一 个 接受 状态 ， 但 该 接受 状态 (没有 离 
开 转 换 ) 不 是 重要 状态 。 我 们 可 以 在 一 个 正则 表达 式 r 的 右 端 连接 一 个 
独特 的 右 端 结束 标记 符 #， 使 得 r 的 接受 状态 增加 一 个 在 # 上 的 转换 ， 使 
之 成 为 (r) # 的 NFA 的 重要 状态 。 换 句 话 说 ， 通 过 使 用 扩展 的 
Caugment) 正则 表达 式 (r) #， 我 们 可 以 在 构造 过 程 中 不 考虑 接受 状 
态 的 问题 。 当 构造 过 程 结 束 后 ， 任 何在 # 上 有 离开 转换 的 状态 必然 是 一 
个 接受 状态 。 


NEFA 的 重要 状态 直接 对 应 于 正则 表达 式 中 存放 了 字母 表 中 符号 的 位 
置 。 使 用 抽象 语法 树 来 表示 扩展 的 正则 表达 式 是 非常 有 用 的 。 该 语法 分 
析 树 的 叶子 结 反 对 应 于 运算 分 量 ， 内 部 结 点 表示 运算 符 。 标 写 为 连接 运 
算 符 〈。) 、 并 运算 符 | 、 星 号 运算 符 * 的 内 部 结 点 分 别称 为 cat 结 点 、 
or 结 点 和 star 结 点 。 我 们 可 以 使 用 2.5.1 节 中 处 理 算 术 表 达 式 的 方法 来 构 
造 一 个 正则 表达 式 对 应 的 抽象 语法 树 。 


例 3.31 图 3-56 是 一 个 正则 表达 式 的 抽象 语法 树 。 其 中 的 小 圆圈 表示 cat 
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图 3-56 ” (a|b) *abb# 的 抽象 语法 树 


抽象 语法 树 的 叶子 结 点 可 以 标号 为 eE， 也 可 以 用 字母 表 中 的 符号 作 
为 标号 。 对 于 每 一 个 标号 不 为 Ee 的 叶子 结 点 ， 我 们 赋予 一 个 独 有 的 整 
数 。 我 们 将 这 个 整数 称 为 叶子 结 点 的 位 置 (position〉， 同 时 也 表示 和 
它 对 应 的 符号 的 位 置 。 请 注意 ， 一 个 符号 可 以 有 多 个 位 置 。 比 如 ， 在 图 
3-56 中 ，a 有 位 置 1 和 位 置 3。 抽 象 语法 树 中 的 这 些 位 置 对 应 于 构造 出 的 
NFA 中 的 重要 状态 。 


人 332 有 图 3-57 显 示 了 对 应 于 图 3-56 中 的 正则 表达 式 的 NFA， 其 中 的 重 
要 状态 已 经 被 编号 ， 而 其 他 状态 则 用 字母 表示 。 我 们 很 快 就 会 看 到 ， 
NFA 的 编号 状态 和 抽象 语法 树 中 的 位 置 是 如 何 对 应 的 。 




















图 3-57 使 用 算法 3. 23 构 造 得 到 的 (a|b) “abb# 的 NFA 


3.9.2 ”根据 抽象 语法 树 计算 得 到 的 函数 





要 从 一 个 正则 表达 式 直 接 构 造 出 DFA， 我 们 要 首先 构造 它 的 抽象 语 
法 树 ， 然 后 计算 如 下 四 个 函数 : nullable、firstpos、lastpos 和 followpos。 
0 正则 表达 式 (r) # 的 抽象 语法 
对 。 


1) nullable (n) 对 于 一 个 抽象 语法 树 结 点 n 为 真 当 且 仅 当 此 结 点 代 
表 的 子 表 达 式 的 语言 中 包含 空 串 € 。 也 就 是 说 ， 这 个 子 表达 式 可 以 “ 生 
成 空 串 ”或 者 本 里 束 是 空 串 ， 即 使 它 也 可 能 表示 一 些 其 他 的 串 。 


2) firstpos (n) 定义 了 以 结 点 n 为 根 的 子 树 中 的 位 置 集合 。 这 些 位 
置 对 应 于 以 n 为 根 的 子 表 达 式 的 语言 中 某 个 串 的 第 一 个 符号 。 


3) lastpos (n) 定义 了 以 结 点 n 为 根 的 子 树 中 的 位 置 集合 。 这 些 位 
置 对 应 于 以 n 为 根 的 子 表 达 式 的 语言 中 某 个 串 的 最 后 一 个 符号 。 


4) followpos (p〉 定 义 了 一 个 和 位 置 p 相 关 的 、 抽 象 语法 树 中 的 某 
些 位 置 的 集合 。 一 个 位 置 q 在 followpos (p) 中 当 且 仅 当 存在 L ( (7) 
#) 中 的 某 个 串 x=aia>...an， 使 得 我 们 在 解释 为 什么 x 属于 L ( (r) #) 
时 ， 可 以 将 x 中 的 某 个 ai 和 抽象 语法 树 中 的 位 置 p 匹 配 ， 且 将 位 置 ai 和 位 
置 q 匹 配 。 


考虑 图 3-56 中 对 应 于 表达 式 〈alb) “a 的 cat 结 点 n。 我 们 说 
nullable (n) = false， 因 为 这 个 结 点 生成 所 有 以 a 结尾 的 由 a、b 组 成 的 


























串 ; 它 不 生成 空 串 会 。 而 另 一 方面 ， 它 下 面 的 star 结 点 是 可 以 为 空 ， 它 
的 正则 表达 式 生 成 E 以 及 所 有 由 a、b 组 成 的 串 。 


firstpos (n) ={1，2，3}。 在 由 n 对 应 的 正则 表达 式 生 成 的 像 aa 这 样 
的 串 中 ， 该 串 的 第 一 个 位 置 对 应 于 树 中 的 位 置 1， 在 像 ba 这 样 的 串 中 ， 
串 的 第 一 个 位 置 来 自 于 树 中 的 位 置 2。 然 而 ， 当 由 n 代 表 的 正则 表达 式 生 
成 的 串 仅 包含 a 时 ， 这 个 a 来 目 于 位 置 3。 


lastpos (n) ={3}。 也 就 是 说 ， 不 管 结 点 nan 的 表达 式 生成 什么 串 ， 该 
串 的 最 后 一 个 位 置 总 是 来 自 位 置 3 上 的 a。 


followpos 的 计算 要 困难 一 些 ， 但 是 我 们 很 快 会 给 出 计算 这 个 函数 的 
规则 。 下 面 是 推导 得 到 followpos 值 的 一 个 例子 : followpos (1) ={1， 
2，3}。 考 虑 一 个 串 ...ac...， 其 中 c 代 表 a 或 b， 且 a 来 自 位 置 1。 也 就 是 
说 ， 这 个 a 是 由 表达 式 (alb)“ 中 的 a 生成 的 多 个 a 之 一 。 这 个 a 后 面 可 以 
跟随 由 同一 表达 式 (alb)“ 生 成 的 a 或 bp， 此 时 c 来 自 位 置 1 或 位 置 2。 也 有 
可 能 这 个 a 是 表达 式 (alb) “生成 的 串 的 最 后 一 个 字符 ， 那 么 c 一 定 是 来 
自 位 置 3 的 a。 因 此 ，1、2、3 就 是 可 以 跟 在 位 置 1 后 的 位 置 。 





























3.9.3 ”计算 nullable、firstpos 及 lastpos 


我 们 可 以 使 用 一 个 对 树 的 高 度 直 接 进行 递归 的 过 程 来 计算 
nullable、firstpos 和 lastpos。 在 图 3-58 中 总 结 了 计算 nullable 和 firstpos 的 基 
本 规则 和 归纳 规则 。 计 算 lastpos 的 规则 在 本 质 上 和 计算 firstpos 的 规则 相 
同 ， 但 是 在 针对 cat 结 点 的 规则 中 ， 子 结 点 cl 和 cz 的 角色 需要 对 调 。 


TO 
RR te | 0 
下 人 


一 个 or- 结 点 R= 二 cilco | nullable(c1) or | firstpos(c1) U firstpos(c») 
nullable(c») 


一 个 cat- 结 点 n= clcz | nullable(c1) and if ( nullable(c1) ) 
nullable(c») firstpos(c1) U firstpos(c») 


else firstpos(c1) 
ET 




















图 3-58 计算 nullable 和 firstpos 的 规则 


人 在 图 3-56 的 语法 树 的 所 有 结 点 中 ， 只 有 星 号 结 点 是 可 为 空 的 。 
科 岁 3-58 可 知 ， 图 中 的 所 有 叶子 结 点 都 是 不 可 为 空 的 ， 因 为 它们 都 对 应 
于 非 运 算 分 量 。 图 3-56 中 的 or 结 点 是 不 可 为 空 的 ， 因 为 它 的 子 结 点 都 
不 可 为 空 。 图 中 的 star- 结 点 是 可 空 的 ， 因 为 这 是 star 结 点 的 特征 之 一 。 
最 后 ， 图 3-56 中 的 所 有 cat 结 点 (至 少 包含 一 个 不 可 为 空 的 子 结 点 ) 都 是 
不 可 为 空 的 。 


对 各 个 结 点 的 firstpos 和 1lastpos 的 计算 结果 显示 在 图 3-59 中 ， 其 中 ， 
firstpos Cn) 显示 在 结 点 n 的 左边 ，lastpos Cn) 显示 在 结 点 右边 。 每 个 
叶子 结 点 的 firstpos 和 lastpos 只 包含 它 自 导 ， 这 是 由 图 3-58 中 关于 非 E 叶 
子 结 点 的 规则 决定 的 。 图 3-56 中 的 or 结 点 的 firstpos 和 lastpos 分 别 是 它 的 
所 有 子 结 点 的 firstpos 和 1lastpos 的 并 集 。 针 对 star 结 点 的 规则 是 ， 它 的 
firstpos 及 lastpos 分 别 是 它 的 唯一 子 结 点 的 firstpos 和 ]lastpos。 














{1,2,3} o {6} 


Fr ll 


{1,2,3} o {5} {6} # {6} 
{1,2,3} o {4} {5} b {5} 
{1,2,3} o {3} {4} b {4} 
{1,2} * {1,2} {3} a {3} 


{1,2} | {1,2} 


{1} a {1} {2} b {21 


图 3-59 (a|b) “abb# 的 语法 分 析 树 的 结 点 的 firstpos 和 |astpos 


最 后 考虑 最 下 面 的 cat- 结 点 ， 我 们 将 把 这 个 结 点 称 为 n。 要 计算 
firstpos Cn) ， 我 们 首先 考虑 其 左边 的 运算 分 量 是 否 可 为 空 。 在 这 个 例 








子 里 面 ， 左 运算 分 量 可 以 为 室 ， 因 此 ，n 的 firstpos 是 它 的 各 个 子 结 点 的 
firstpos 的 并 集 ， 也 就 是 {1，2}U {3}={1，2，3}。 图 3-58 中 没有 明确 说 
明 lastpos 的 运算 规则 ， 但 是 前 面 提 到 过 ， 它 的 规则 和 firstpos 的 规则 相 

同 ， 只 是 需要 互 换 子 结 点 的 角色 。 也 束 是 说 ， 要 计算 lastpos Cn) ， 我 
们 需要 知道 它 的 右 子 结 点 (位 置 为 3 的 叶子 结 点 ) 是 否 可 为 空 。 它 不 可 
为 空 ， 因 此 lastpos Cn) 就 是 它 的 右 子 结 点 的 lastpos， 即 {3)}。 











3.9.4 计算 followpos 





最 后 ， 我 们 来 了 解 一 下 如 何 计 算 男 数 followpos。 只 有 两 种 情况 会 使 
得 一 个 正则 表达 式 的 某 个 位 置 会 跟 在 另 一 个 位 置 之 后 : 


1) 如 果 n 是 一 个 cat 结 点 ， 且 其 左右 子 结 点 分 别 为 cl、c?， 那 么 对 于 
lastpos (cl) 中 的 每 个 位 置 1，firstpos (c,) 中 的 所 有 位 置 都 在 
followpos (i) 中 。 


2) 如 果 n 是 star 结 点 ， 并 且 i 是 lastpos Cn) 中 的 一 个 位 置 ， 那 么 
firstpos Cn) 中 的 所 有 位 置 都 在 followpos (i) 中 。 


现在 让 我 们 继续 考虑 那个 贯穿 全 节 的 例子 。 回 顾 一 下 ，firstpos 
Hastpos 已 经 在 图 3-59 中 计算 出 来 了 。followpos 的 计算 规则 1 要 求 我 们 得 
看 每 个 cat 结 点 ， 并 将 它 的 右 子 结 点 的 firstpos 中 的 每 个 位 置 放 到 它 的 左 子 
结 点 的 lastpos 中 的 各 个 位 置 的 followpos 中 。 对 于 图 3-59 中 最 下 面 的 cat 结 
点 ， 该 规则 说 位 置 3 在 followpos (3) 和 followpos (2) 中 。 其 上 一 个 cat 
结 点 说 4 在 followpos (3) 中 ， 余 下 的 两 个 cat 结 点 告诉 我 们 5 在 

followpos 〈4) 中 ，6 在 followpos (5) 中 。 


我 们 还 必须 对 star 结 点 应 用 规则 2。 该 规则 告诉 我 们 位 置 1 和 2 既 在 
followpos 〈1) 中 又 在 followpos (2) 中， 因为 这 个 结 点 的 firstpos 和 
lastpos 都 是 {1，2}。 图 3-60 给 出 了 全 部 的 followpos 集 合 。 








图 3-60 函数 followpos 
我 们 可 以 创建 一 个 有 问 图 来 表示 函数 followpos， 其 中 每 个 位 置 有 一 


个 对 应 的 结 点 ， 从 位 置 i 到 位 置 ;有 一 条 有 向 边 当 且 仅 当 j 在 followpos (i) 
中 。 图 3-61 显 示 的 有 向 图 表示 了 图 3-60 所 示 的 followpos 函 数 。 


从。 (4) (5) (0) 
> 


图 3-61 表示 有 函数 followpos 的 有 向 图 


坚 不 奇 怪 ， 表 示 followpos 函 数 的 有 回 图 几乎 就 是 相应 的 正则 表达 式 
的 不 包含 Ee 转换 的 NFA。 


如 果 我 们 进行 下 面 的 处 理 ， 这 个 图 就 变 成 了 这 样 的 一 个 NFA。 
1) 将 根 结 点 的 firstpos 中 的 所 有 位 置 设 为 开始 状态 。 

2) 在 每 条 从 i 到 j 的 有 向 边 上 添加 位 置 i 上 的 符号 作为 标号 。 

3) 把 和 结尾 # 相 关 的 位 置 当 作 唯 一 的 接受 状态 。 














3.9.5 ”根据 正则 表达 式 构 建 DFA 


从 一 个 正则 表达 式 r 构 造 DFA。 

输入 ， 一 个 正则 表达 式 r。 

输出 : 一 个 识别 L (r) 的 DFA D。 

方法 : 

1) 根据 扩展 的 正则 表达 式 (r) # 构 造 出 一 棵 抽象 语法 树 T。 


2) 使 用 3.9.3 节 和 3.9.4 节 的 方法 ， 计 算得 到 T 的 函数 nullable、 
firstpos、lastpos 和 followpos。 


3) 使 用 图 3-62 中 所 示 的 过 程 ， 构 造 出 D 的 状态 集 Dstates 和 D 的 转换 
函数 Dtran。D 的 状态 就 是 IT 中 的 位 置 集合 。 每 个 状态 最 初 都 是 “未 标记 
的 ”， 当 我 们 开始 考虑 某 个 状态 的 离开 转换 时 ， 该 状态 变 成 “已 标记 
的 ”。D 的 开始 状态 是 firstpos (no〉， 其 中 结 点 no 是 T 的 根 结 点 。 这 个 
DFA 的 接受 状态 集合 是 那些 包含 了 和 结束 标记 # 对 应 的 位 置 的 状态 。 














初始 化 Dstates ,使 之 只 包含 未 标记 的 状态 firstpos(n0)， 
其 中 mo 是 (站 )# 的 抽象 语法 树 的 根 结 点 ; 

while ( Dstates 中 存在 未 标记 的 状态 5S ) { 
标记 5; 
for (每 个 输入 符号 a ) { 


令 UU 为 S 中 和 a 对 应 的 所 有 位 置 p 的 followpos(p) 的 并 集 ; 
让 (UU 不 在 Dstates 中 ) 

将 U 作 为 未 标记 的 状态 加 入 到 Dstates 中 |; 
DtranlS,a] = U; 





图 3-62 ”从 一 个 正则 表达 式 直 接 构 造 一 个 DFA 


[ 卫 玉 现在 我 们 可 以 把 我 们 的 连续 使 用 的 例子 的 各 个 步骤 综合 起 来 ， 
为 正则 表达 式 r= (alb) “abb 构 造 一 个 DFA。 (r) # 的 语法 分 析 树 如 图 3- 





56 所 示 。 我 们 观察 到 ， 在 这 标语 法 分 析 树 中 ， 只 有 star 结 点 使 nullable 为 
真 。 我 们 将 函数 firstpos 和 lastpos 显 示 在 图 3-59 中 。 函 数 followpos 的 值 显 
示 在 图 3-60 中 。 


这 棵 树 的 根 结 点 的 firstpos 的 值 是 {1，2，3}， 因 此 DD 的 开始 状态 束 是 
这 个 集合 。 我 们 称 这 个 集合 为 A。 我 们 必须 计算 Dtran LA,，aj] 和 
Dtran [A，b]」。 在 A 的 位 置 中 ，1 和 3 对 应 于 a， 而 2 对 应 于 b。 因 此 
Dtran [A, a|] =followpos (1) Ufollowpos (3) = {1, 2，3, 4}; 
Dtran [A,， bj] =followpos (2) = {1，2，3}。 后 一 个 集合 就 是 A， 因 此 
不 需要 加 入 到 Dstates 中 。 但 是 前 一 个 状态 集 B={1，2，3，4} 是 新 状态 ， 
因此 我 们 将 它 加 入 到 Dtrans 中 并 计算 它 的 转换 。 完 整 的 DFA 如 图 3-63 所 
示 。 





图 3-63 ”根据 图 3-57 构 造 得 到 的 DFA 


3.9.6 ”最 小 化 一 个 DFA 的 状态 数 





对 于 同一 个 语言 ， 可 以 存在 多 个 识别 此 语言 的 DFA。 例 如 ， 图 3-36 
和 图 3-63 中 的 DFA 都 识别 语言 L( (alb) “abb) 。 这 两 个 DFA 不 但 各 个 
状态 的 名 字 不 同 ， 就 连 它 们 的 状态 个 数 也 不 一 样 。 如 有 果 我 们 使 用 DFA 来 
实现 词法 分 析 器 ， 我 们 总 是 希望 使 用 的 DFA 的 状态 数量 尽 可 能 地 少 ， 
为 描述 词法 分 析 器 的 转换 表 需 要 为 每 个 状态 分 配 条 目 。 


状态 名 字 的 问题 是 次 要 的 。 如 宁 我 们 只 需 改变 状态 名 字 就 可 以 将 一 
个 目 动机 转换 成 为 男 一 个 自动 机 ， 我 们 就 说 这 两 个 自动 机 是 同 构 的 。 图 
3-36 和 图 3-63 中 的 两 个 自动 机 不 是 同 构 的 。 然 而 ， 这 两 个 自动 机 的 状态 
之 间 有 很 紧密 的 关系 。 图 3-36 中 的 状态 A 和 C 实 际 上 是 等 价 的 ， 因 为 它 
们 都 不 是 接受 状态 ， 且 对 任意 输入 ， 它 们 总 是 转 到 同一 个 状态 一 一 在 输 








入 a 上 转 到 B， 在 输入 b 上 转 到 C。 不 仅 如 此 ， 状 态 A 和 C 的 行为 都 和 图 3- 
63 中 的 状态 123 相 似 。 类 似 地 ， 图 3.36 中 状态 B 的 行为 和 图 3-63 中 状态 
1234 的 行为 相似 ， 状 态 D 的 行为 和 状态 1235 的 行为 相似 ， 状 态 E 的 行为 
和 状态 1236 的 行为 相似 。 


可 以 得 出 一 个 重要 的 结论 : 任何 正则 语言 都 有 一 个 唯一 的 (不 计 同 
构 ) 状态 数目 最 少 的 DFA。 而 且 ， 从 任意 一 个 接受 相同 语言 的 DFA 出 
发 ， 通 过 分 组 合并 等 价 的 状态 ， 我 们 总 是 可 以 构建 得 到 这 个 状态 数 最 少 
的 DFA。 对 于 L〈 (alb) abb) ， 图 3-63 就 是 状态 最 少 的 DFA， 将 图 3- 


36 中 DFA 的 状态 划分 为 {A，C}{B}{D}{E} 然 后 合并 等 价 状态 就 可 以 得 
到 这 个 最 小 DFA。 


我 们 将 给 出 一 个 将 任意 DFA 转 化 为 等 价 的 状态 最 少 的 DFA 的 算法 。 
该 算法 首先 创建 输入 DFA 的 状态 集合 的 分 划 。 为 了 理解 这 个 算法 ， 我 们 
要 了 解 输入 串 是 如 何 区 分 各 个 状态 的 。 如 果 分 别 从 状态 S 和 t 出 发 ， 沿 着 
标号 为 x 的 路 径 到 达 的 两 个 状态 中 只 有 一 个 是 接受 状态 ， 我 们 说 串 x 区 分 
状态 s 和 t。 如 果 存 在 某 个 能 够 区 分 状态 s 和 状态 t 的 串 ， 那 么 它们 就 是 可 
区 分 的 〈distinguishable) 。 


空 串 E 可 以 区 分 任何 一 个 接受 状态 和 非 接受 状态 。 在 图 3-36 
， 旱 bb 区 分 状态 A 和 B， 因 为 从 A 出 发 经 过 标号 为 bb 的 路 径 会 到 达 非 接 
受 状态 C， 而 从 B 出 发 则 到 达 接 受 状态 E。 


DFA 状 态 最 小 化 算法 的 工作 原理 是 将 一 个 DFA 的 状态 集合 分 划 成 多 
个 组 ， 每 个 组 中 的 各 个 状态 之 间 相 互 不 可 区 分 。 然 后 ， 将 每 个 组 中 的 状 
态 合并 成 状态 最 少 DFA 的 一 个 状态 。 算 法 在 执行 过 程 中 维护 了 状态 集合 
的 一 个 分 划 ， 分 划 中 的 每 个 组 内 的 各 个 状态 尚 不 能 区 分 ， 但 是 来 目 不 同 
组 的 任意 两 个 状态 是 可 区 分 的 。 当 任意 一 个 组 都 不 能 再 被 分 解 为 更 小 的 
组 时 ， 这 个 分 划 就 不 能 再 进一步 精 化 ， 此 时 我 们 惑 得 到 了 状态 最 少 的 
DEFA 。 


最 初 ， 该 分 划 和 包含 两 个 组 ， 接 受 状态 组 和 非 接受 状态 组 。 算 法 的 基 
本 步 又 是 从 当前 分 划 中 取 一 个 状态 组 ， 比 如 A = {s;，s,，.…，si}， 并 选 
定 某 个 输入 符号 a， 检 查 a 是 否 可 以 用 于 区 分 A 中 的 某 些 状态 。 我 们 检查 
5 ，s5，.…，si 在 a 上 的 转换 ， 如 果 这 些 转换 到 达 的 状态 落 入 当前 分 划 的 
两 个 或 多 个 组 中 ， 我 们 就 将 A 分 割 成 为 多 个 组 ， 使 得 s 和 sj 在 同一 组 中 当 
且 仅 当 它们 在 a 上 的 转换 都 到 达 同 一 个 组 的 状态 。 我 们 重复 这 个 分 割 过 




















程 ， 直 到 无 法 根据 茶 个 输入 符号 对 任意 个 组 进行 分 割 为 止 。 这 个 思想 体 
现在 下 面 的 算法 中 。 


状态 最 小 化 算法 的 原理 


我 们 需要 证 明 两 个 性 质 : 仍然 位 于 Iaa 的 同一 组 中 状态 不 可 能 被 
任意 串 区 分 ， 2 
0 要 对 算法 3-39 中 步骤 2 的 迭代 次 数 进 行 归 纳 。 如 
末 在 步骤 2 的 第 1 次 迁 代 之 后 s 和 1 在 同一 子 组 中 ， 那 么 就 不 存在 长 度 小 
于 等 于 i 的 串 可 以 将 s 和 t 区 分 开 。 请 读者 自行 完成 这 个 归纳 证 明 。 


第 二 个 性 质 的 证 明 也 是 通过 对 迭代 次 数 的 归纳 来 完成 的 。 如 果 在 
步 又 2 的 第 i 次 迭代 时 状态 s 和 t 被 放 在 不 同 的 组 中 ， 那 么 必然 存在 一 个 
囊 可 以 区 分 > Te 归纳 的 基础 很 容易 证 明 : 当 s 和 t 放 在 初始 分 划 的 不 
同 组 中 时 ， 它 们 必然 一 个 是 接受 状态 ， 另 一 个 是 非 接受 状态 。 因 "此 
EE 就 可 以 区 分 它们 。 归 纳 步 又 如 下 : 必然 存在 一 个 输入 符号 a 和 状态 
p、g， 使 得 :和 t 在 输入 a 上 分 别 进入 状态 p 和 gq。 0 
放 到 不 同 的 组 中 了 。 那 么 根据 归纳 假设 ， 必 然 存在 某 个 串 x 可 以 区 分 
和 q。 因 此 可 知 ax 能 够 区 分 s 和 t。 

















最 小 化 一 个 DFA 的 状态 数量 。 


输入 : 一 个 DFA D， 其 状态 集合 为 S， 输 入 字母 表 为 2， 开 始 状态 为 
， 接 受 状 态 集 为 F。 


输出 : 一 个 DFA D'， 它 和 D 接 受 相 同 的 语言 ， 且 状态 数 最 少 。 
方法 : 


1) 首先 构造 包含 两 个 组 FE 和 S-F 的 初始 划分 I， 这 两 个 组 分 别 是 D 的 
接受 状态 组 和 非 接受 状态 组 。 


2) 应 用 图 3-64 的 过 程 来 构造 新 的 分 划 TT。w。 


最 初 , 令 Inew = 也 ; 
for ( 工 中 的 每 个 组 G ) { 
将 G 分 划 为 更 小 的 组 ， 使 得 两 个 状态 s 和 t 在 同一 小 组 中 当 且 仅 当 对 于 所 有 
的 输入 符号 4a， 状态 s 和 二 在 w 上 的 转换 都 到 达 开 中 的 同一 组 ; 
/* 在 最 坏 情况 下 ， 每 个 状态 各 自 组 成 一 个 组 */ 
在 IInew 中 将 G 替 换 为 对 G 进行 分 划 得 到 的 那些 小 组 ; 








图 3-64 ”中 ,ow 的 构造 
3) 如 果 ITnew = II， 令 IIfnal = I 并 接着 执行 步骤 4， 人 否则 ， 用 ITnew 答 
换 I 并 重复 步骤 2。 
4) 在 分 划 ITmnal 的 每 个 组 中 选取 一 个 状态 作为 该 组 的 代表 。 这 些 代 
表 构 成 了 状态 最 少 DFA D' 的 状态 。D' 的 其 他 部 分 按 如 下 步骤 构建 : 
(a) D' 的 开始 状态 是 包含 了 D 的 开始 状态 的 组 的 代表 。 


(b) D' 的 接受 状态 是 那些 包含 了 D 的 接受 状态 的 组 的 代表 。 请 注 
意 ， 每 个 组 中 要 么 只 包含 接受 状态 ， 要 么 只 包含 非 接受 状态 ， 因 为 我 们 
一 开始 束 将 这 两 类 状态 分 开 了 ， 而 图 3-64 中 的 过 程 忆 是 通过 分 解 已 经 构 
造 得 到 的 组 来 得 到 新 的 组 。 








(Cc) 令 s 是 Tpna 中 茶 个 组 G 的 代表 ， 并 令 DFA DD 中 在 输入 a 上 离开 s 
的 转换 到 达 状 态 t。 令 rf 为 t 所 在 组 H 的 代表 。 那 么 在 D’ 中 存在 一 个 从 s 到 jr 
在 输入 a 上 的 转换 。 注 意 ， 在 D 中 ， 组 G 中 的 每 一 个 状态 必然 在 输入 a 上 
进入 组 H 中 的 某 个 状态 ， 否 则 ， 组 G 应 该 已 经 被 图 3-64 的 过 程 分 割 成 更 
小 的 组 了 。 





消除 死 状 态 


这 个 最 小 化 算法 有 时 会 产生 带 有 一 个 死 状 态 的 DFA。 所 谓 死 状态 
就 是 在 所 有 输入 符号 上 都 转 癌 目 己 的 非 接受 状态 。 从 技术 上 来 讲 ， 这 
个 状态 是 必须 的 ， 因 为 在 一 个 DFA 中 ， 从 每 个 状态 出 发 在 每 个 输入 符 
号 上 都 必须 有 一 个 转换 。 然 而 ， 如 3.8.3 节 所 讨论 的 ， 我 们 需要 知道 在 
什么 时 候 已 经 不 存在 被 这 个 DFA 接 受 的 可 能 性 了 ， 这 样 我 们 才能 知道 
己 经 识别 到 了 正确 的 词素 。 因 此 ， 我 们 希望 消除 死 状 态 ， 并 使 用 一 个 








缺少 某 些 转 换 的 自动 机 。 这 个 自动 机 的 状态 比 状态 最 少 DFA 的 状态 少 
二 但 古 因为 缺少 了 一 些 到 达 死 状态 的 转换 ， 所 以 严格 地 讲 它 并 不 
是 一 个 DFA。 





让 我 们 重新 考虑 图 3-36 中 给 出 的 DEFA。 初 始 分 划 包 括 两 个 组 
{A，B，C，D}，{E}， 它 们 分 别 是 非 接受 状态 组 和 接受 状态 组 。 构 造 
IDhew 时 ， 图 3-64 中 的 过 程 考虑 这 两 个 组 和 输入 符号 a 和 b。 因 为 组 {EE} 只 
包含 一 个 状态 ， 不 能 再 被 分 割 ， 所 以 {E} 被 原封 不 动 地 保留 在 Inhew 中 。 


男 一 个 组 {A，B，C, DD} 是 可 以 被 分 割 的 ， 因 此 我 们 必须 考虑 各 个 
输入 符号 的 作用 。 在 输入 a 上 ， 这 些 状态 中 的 每 一 个 都 转 到 B， 因 此 使 用 
以 a 开 头 的 串 无 法 区 分 这 些 状态 。 但 对 于 输入 pb， 状态 A、B 和 C 都 转换 到 
组 {A，B，C， DD} 的 某 个 成 员 上 ， 而 D 转 到 男 一 个 组 中 的 成 员 E 上 。 因 此 
在 ILew 中 ， 组 {A，B，C，D} 被 分 割 为 {A，B，C} 和 {D}。 这 一 轮 得 到 
的 ITjow 是 {A，B,，C}{D}{E}。 


在 下 一 轮 中 ， 我 们 可 以 把 {A，B，C} 分 割 为 {A，C}{B}， 因 为 A 和 
C 在 输入 b 上 都 到 达 {A，B，C} 中 的 元 素 ， 但 B 却 转 到 另 一 个 组 中 的 元 素 
D 上 。 因 此 在 第 二 轮 之 后 ，I ={A，Cj{BJD1IE}。 在 第 三 轮 中 ， 我 
们 不 能 够 再 分 割 当前 分 划 中 唯一 一 个 包含 多 个 状态 的 组 {A，C}， 因 为 A 
和 C 在 所 有 输入 上 都 进入 同一 个 状态 (因此 也 就 在 同一 组 中 ) 。 因 此 我 
们 有 Tewa = {A,，C}H{B}H{D}{E}。 


现在 我 们 将 构建 出 状态 最 少 DFA。 它 有 4 个 状态 ， 对 应 于 IIana 中 的 
四 个 组 。 我 们 分 别 挑 选 A、B、D 和 E 作 为 这 四 个 组 的 代表 。 其 中 ， 状 态 
A 是 开始 状态 ， 状 态 E 是 唯一 的 接受 状态 。 它 的 转换 函数 如 图 3-65 所 示 。 
例如 ， 在 输入 b 上 离开 状态 E 的 转换 到 达 状 态 A， 因 为 在 原来 的 DFA 中 ， 
E 在 输入 b 上 到 达 C， 而 A 是 C 所 在 组 的 代表 。 因 为 同样 的 原因 ， 在 输入 b 
上 离开 A 的 状态 回 到 A 本 号 ， 而 其 他 的 转换 都 和 图 3-36 中 的 相同 。 














图 3-65 ”状态 最 少 DFA 的 转换 表 


3.9.7 ”词法 分 析 需 的 状态 最 小 化 


如 果 要 将 状态 最 小 化 算法 应 用 于 3.8.3 节 中 生成 的 DFA， 我 们 必须 在 
算法 3.39 中 使 用 不 同 的 初始 分 划 。 我 们 会 将 识别 茶 个 特定 词法 单元 的 所 
有 状态 放 到 对 应 于 此 词法 单元 的 一 个 组 中 ， 同 时 把 所 有 不 识别 任何 词法 
单元 的 状态 放 到 为 一 组 。 下 面 用 一 个 例子 来 说 明 这 个 扩展 。 


对 于 图 3-54 的 DFA， 初 始 分 划 为 
{0137, 7}{247}{8, 58}{68}{0} 


其 中 ， 状 态 0137 和 7 分 在 同一 组 的 原因 是 它们 都 没有 识别 任何 词法 单 
元 ; 状态 8 和 58 分 在 一 组 的 原因 是 它们 都 识别 词法 单元 a b*。 请 注意 ， 
我 们 添加 了 一 个 死 状态 @， 我 们 假设 它 在 输入 a 和 b 时 会 转 到 它 自嘲 。 这 
个 死 状态 同时 也 是 状态 8、58 和 68 在 输入 a 上 的 目标 状态 。 


我 们 必须 将 0137 和 7 分 开 ， 因 为 它们 在 输入 a 上 转 到 不 同 的 组 。 我 们 
也 要 把 8 和 58 分 开 ， 因 为 它们 在 输入 b 上 转 到 不 同 的 组 。 这 样 ， 所 有 的 状 
态 都 目 成 一 组 。 图 3-54 所 示 的 DFA 就 是 识别 这 三 个 词法 单元 的 状态 最 少 
DFA。 请 记 住 ， 补 用 作词 法 分 析 器 的 DFA 通 常会 丢掉 它 的 死 状态 ， 同 时 
我 们 把 所 有 消失 的 转换 当 作 结束 词法 单元 识别 过 程 的 信号 。 





3.9.8 ” ”DFA 模拟 中 的 时 间 和 空间 权衡 


最 简单 和 最 快捷 的 表示 一 个 DFA 的 转换 函数 的 方法 是 使 用 一 个 以 状 
态 和 字符 为 下 标的 二 维 表 。 给 定 一 个 状态 和 下 一 个 输入 字符 ， 我 们 访问 
这 个 数组 就 可 以 找 出 下 一 个 状态 以 及 我 们 必须 执行 的 特殊 动作 ， 比 如 将 
一 个 词法 单元 返回 给 语法 分 析 器 。 由 于 词法 分 析 费 的 DFA 中 通常 包含 数 
百 个 状态 ， 并 且 涉 及 ASCII 字 母 表 中 的 128 个 输入 字符 ， 因 此 这 个 数组 需 
要 的 空间 少 于 一 兆 字 节 。 


但 是 ， 在 一 些小 型 的 设备 中 也 可 能 使 用 编译 器 。 对 于 这 些 设备 来 
说 ， 即 使 一 兆 内 存 也 显得 太 大 了 。 对 于 这 种 情况 ， 可 以 应 用 很 多 方法 来 
压缩 转换 表 。 比 如 ， 我 们 可 以 用 一 个 转换 链表 来 表示 每 个 状态 ， 这 个 转 
换 链表 由 字符 -状态 对 组 成 。 我 们 在 链表 的 最 后 存放 一 个 默认 状态 : 对 
于 没有 出 现在 这 个 链表 中 的 人 字符， 我们 总 是 选择 这 个 状态 作为 目标 状 





还 有 一 个 更 加 巧妙 的 数据 结构 ， 它 既 利 用 了 数组 表示 法 的 访问 速 
度 ， 又 利用 了 带 默 认 值 的 链表 的 压缩 特性 。 我 们 可 以 把 这 个 结构 看 作 四 
个 数组 ， 如 图 3-66 所 示 针 。 其 中 的 base 数 组 用 于 确定 状态 s 的 条 目的 基准 
位 置 。 这 些 条 目 位 于 数组 next 和 check 中 。 如 果 数 组 check 告 诉 我 们 由 
base [sj] 给 出 的 基准 位 置 不 正确 ， 那 么 我 们 就 使 用 数组 default 来 确定 田 
一 个 基准 位 置 。 


default base next check 





图 3-66 表示 转换 表 的 数据 结构 


在 计算 nextstate (s，a) 时 ， 即 计算 状态 s 在 输入 a 上 的 后 继 状 态 
时 ， 我 们 首先 查看 数组 next 和 check 中 在 位 置 = base [s] + a 上 的 条 目 ， 
其 中 a 被 当 作 0 一 127 之 间 的 整数 。 如 果 check [1] = s， 那 么 这 个 条 目 是 
有 效 的 ， 状 态 s 在 输入 a 上 的 后 继 状 态 就 是 next [1] ， 如 果 check [1] z 
s， 那 么 我 们 得 到 另 一 个 状态 t= default [s] ， 并 把 t 当 作 当 前 的 状态 重复 
这 个 过 程 。 函 数 nextState 的 定义 如 下 : 





int mezt9tate(s;,Q) { 
if ( check[basels] + a] ==s ) return meztlpase[s] + a]; 
else return nertState( default[s], a); 


} 


使 用 图 3-66 中 所 示 数 据 结构 的 目的 是 利用 状态 之 间 的 相似 性 来 缩短 
next-check 数 组 。 例 如 ，s 状 态 的 默认 状态 t 可 能 是 一 个 “正在 处 理 一 个 标 
识 符 ”的 状态 ， 就 像 图 3-14 中 的 状态 10。 而 状态 s 可 能 是 在 读 入 字母 th 之 
后 进入 的 状态 。 这 里 th 既是 关键 字 then 的 一 个 前 级 ， 同 时 也 可 能 是 一 个 
标识 符 的 词素 的 前 级 。 当 输入 字符 为 e 时 ， 我 们 必须 从 状态 s 到 达 一 个 特 
别 的 状态 。 该 状态 记 住 我 们 已 经 看 到 了 the; 当 输 入 字符 不 等 于 e 时 ， 状 
态 s 的 动作 和 状态 t 的 动作 相同 。 因 此 ， 我 们 将 check [base [sj] +e] 的 值 
设置 为 s〈 以 确认 这 个 条 目 对 于 状态 S 有 效 ) ， 并 将 next [base [sj] +ej] 
的 值 置 为 前 面 提 到 的 特殊 状态 。 同 时 default [sj] 被 设置 为 t。 

虽然 我 们 可 能 无 法 选择 适当 的 base 值 ， 使 next-check 的 所 有 条 目 都 被 
充分 利用 。 经 验 表 明 ， 采 用 下 述 简 单 策 略 就 可 以 有 很 好 的 效果 : 按照 顺 
序 将 base 值 赋 给 各 个 状态 ， 将 各 个 base [s] 的 值 设置 为 最 小 的 、 能 够 使 
得 状态 s 的 特殊 条 目的 位 置 都 尚未 被 占用 的 值 。 这 个 策略 需要 的 空间 只 
比 最 小 可 能 值 多 一 点 点 。 


3.9.9 3.9 节 的 练习 


练习 3.9.1: 扩展 图 3-58 中 的 表 ， 使 得 它 包 含 如 下 运算 符 : 
1) ? 


2) + 


练习 3.9.2: 使 用 算法 3.36 将 练习 3.7.3 中 的 正则 表达 式 直接 转换 成 
DFA。 


! 练习 3.9.3: 我 们 只 需要 说 明 两 个 正则 表达 式 的 最 少 状态 DFA 同 
构 ， 就 可 以 证 明 这 两 个 正则 表达 式 等 价 。 使 用 这 种 方法 来 证 明 下 面 的 正 
则 表达 式 (Calb)“， (alb ) “以 及 ( (Ela) b*) “相互 等 价 。 注 意 : 你 
可 能 已 经 在 完成 练习 3.7.3 时 构造 出 了 这 些 表达 式 的 DFA。 

! 练习 3.9.4: 为 下 列 的 正则 表达 式 构 造 最 少 状态 DFA: 

1) (alb) “a (alb) 

2) (alb) “a (alb) (alb) 

3) (alb) “a (alb) (alb) (alb) 

你 有 没有 看 出 什么 规律 ? 

! ! 练习 3.9.5: 为 了 证 明 例 3.25 中 非 正 式 给 出 的 结论 ， 说 明正 则 表 
达 式 

(alb)“a(alb)(alb):…: (alb) 
的 任何 DFA 至 少 具 有 2? 个 状态 。 在 这 个 正则 表达 式 中 ， (alb) 在 其 


尾部 出 现 了 n-1 次 。 提 示 : 观察 练习 3.9.4 中 的 规律 。 各 个 状态 分 别 表 示 
了 关于 已 输入 串 的 哪些 信息 ? 


3.10 ”第 3 章 总 结 


词法 单元 。 词 法 分 析 器 扫描 源 程序 并 输出 一 个 由 词法 单元 组 成 的 序 
列 。 这 些 词法 单元 通常 会 逐个 传送 给 语法 分 析 器 。 有 些 词法 单元 只 
包含 一 个 词法 单元 名 ， 而 其 他 词法 单元 还 有 一 个 关联 的 词法 值 ， 它 
给 出 了 在 输入 中 找到 的 这 个 词法 单元 的 茶 个 实例 的 有 关 信 息 。 
词素 。 每 次 词法 分 析 器 问 语 法 分 析 器 返回 一 个 词法 单元 时 ， 该 词法 
单元 都 有 一 个 关联 的 词素 ， 即 该 词法 单元 所 代表 的 输入 字符 串 。 
缓冲 技术 。 为 了 判断 下 一 个 词 双 在 何 处 结束 ， 和 常常 需要 预先 扫描 输 
入 字符 。 因 此 ， 词 法 分 析 器 往往 需要 对 输入 字符 进行 缓冲 。 可 以 使 
用 两 个 技术 来 加 速 输入 扫描 过 程 : 循环 使 用 一 对 缓冲 区 ， 以 及 在 每 
个 缓冲 区 末尾 放置 特殊 的 哨兵 标记 字符 。 该 字符 可 以 通知 词法 分 析 
虱 已 经 到 达 了 绥 冲 区 末 屁 。 

模式 。 每 个 词法 单元 都 有 一 个 模式 ， 它 描述 了 什么 样 的 字符 序列 可 
以 组 成 对 应 于 此 词法 单元 的 词素 。 那 些 和 一 个 给 定 模式 匹配 的 字 
《或 者 说 字符 串 ) 的 集合 称 为 该 模式 的 语言 。 

正则 表达 式 。 这 些 表 达 式 第 用 于 搬 述 模式 。 正 则 表达 式 是 从 单个 字 
Ga 
到 的 。 

正则 定义 。 多 个 语言 的 复杂 集合 ， 比 如 用 以 描述 一 个 程序 设计 语言 
所 有 词法 单元 的 多 个 模式 第 常 是 通过 正则 定义 来 描述 的 。 一 个 正则 
定义 是 一 个 语句 序列 ， 其 中 的 每 个 语句 定义 了 一 个 表示 某 正则 表达 
式 的 变量 。 定 义 一 个 变量 的 正则 表达 式 时 可 以 使 用 已 经 定义 过 的 变 


里 。 

扩展 的 正则 表达 式 表示 法 。 为 了 使 正则 表达 式 更 易于 表达 模式 ， 一 
些 附加 的 运算 符 可 以 作为 缩写 在 正则 表达 式 中 使 用 。 比 如 +《〈 一 个 
或 多 个 ) 、? 《和 零 个 或 一 个 ) 以 及 字符 类 《〈 由 特定 字符 集中 单个 字 
符 组 成 的 字符 串 的 集合 〉。 

状态 转换 图 。 一 个 词法 分 析 器 的 行为 经 常 可 以 用 一 个 状态 转换 图 来 
描述 。 它 有 多 个 状态 。 在 搜寻 可 能 与 茶 个 模式 匹配 的 词素 的 过 程 

中 ， 各 个 状态 代表 了 已 读 入 字符 的 历史 信息 。 它 同时 具有 多 条 从 一 
个 状态 到 达 妨 一 个 状态 的 转换 (箭头) 。 每 个 转换 都 指明 了 下 一 个 
可 能 的 输入 字符 ， 该 字符 将 使 词法 分 析 需 改变 当前 状态 。 

有 穷 自动 机 。 它 十 状态 转换 图 的 形式 化 表示 。 它 指明 了 一 个 开始 状 
态 、 一 个 或 多 个 接受 状态 ， 以 及 状态 集 、 输 入 字符 集 和 状态 间 的 转 




















换 集合 。 接 受 状态 表明 已 经 发 现 了 和 某 个 词法 单元 对 应 的 词素 。 与 
状态 转换 图 不 同 ， 有 穷 自动 机 既 可 以 在 输入 字符 上 执行 转换 ， 也 可 
以 在 空 输入 上 执行 转换 。 

确定 有 穷 自动 机 。 一 个 确定 有 穷 自动 机 是 一 种 特殊 的 有 穷 自动 机 。 
它 的 任何 一 个 状态 对 于 任意 一 个 输入 符号 有 且 只 有 一 个 转换 。 同 时 
它 不 允许 在 空 输 入 上 的 转换 。 确 定 有 和 穷 自动 机 类 似 于 状态 转换 图 ， 
对 它 的 模拟 相对 容易 ， 因 此 适 于 作为 词法 分 析 器 的 实现 基础 。 

不 确定 有 穷 自 动机 。 不 是 确定 有 穷 自动 机 的 自动 机 称 为 不 确定 的 。 
NFA 通 常 要 比 确定 有 穷 自 动机 更 容易 设计 。 词 法 分 析 器 的 男 一 种 体 
系 结构 如 下 : 对 应 于 各 个 可 能 模式 都 有 一 个 NFA， 并 且 我 们 使 用 表 
格 来 记录 这 些 NFA 在 扫描 输入 字符 时 可 能 进入 的 所 有 状态 。 

模式 表示 方法 之 间 的 转换 。 我 们 可 以 把 任意 一 个 正则 表达 式 转换 为 
一 个 大 小 基本 相同 的 NFA， 这 个 NFA 识 别 的 语言 和 该 正则 表达 式 识 
别 的 相同 。 更 进一步 ， 任 何 NFA 都 可 以 转换 为 一 个 代表 相同 模式 的 
DEFA， 虽 然 在 最 坏 的 情况 下 自动 机 的 大 小 会 以 指数 级 增长 ， 但 是 在 
常见 的 程序 设计 语言 中 尚未 人 碰 到 这 些 情况 。 可 以 将 任意 一 个 确定 或 
不 确定 有 穷 自 动机 转化 为 一 个 正则 表达 式 ， 使 得 该 表达 式 定义 的 语 
过 和 这 个 自动 机 识别 的 语言 相同 。 

Lex。 有 一 系列 的 软件 系统 ， 包 括 Lex 和 Flex， 可 以 作为 生成 词法 分 
析 器 的 工具 。 用 户 通 过 扩展 的 正则 表达 式 来 描述 各 种 词法 单元 的 模 
式 。Lex 将 这 些 表达 式 转化 为 词法 分 析 器 。 这 个 分 析 器 实质 上 是 一 
个 可 以 识别 所 有 模式 的 确定 有 穷 自 动机 。 

有 穷 自动 机 的 最 小 化 。 对 于 每 一 个 DFA， 都 存在 一 个 接受 同样 语言 
的 最 少 状态 DFA。 不 仅 如 此 ， 一 个 给 定语 言 的 最 少 状态 DFA“《〈 不 计 
同 构 ) 是 唯一 的 。 
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McNaughton 和 Yamada [13] 最 先 给 出 了 一 个 利用 正则 表达 式 直 接 
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[1 然而 ， 当 讨论 ASC11 字 符 集 中 的 特定 字符 时 ， 我 们 通常 将 使 用 电 
传 字体 同时 表示 字符 和 它 的 正则 表达 式 。 


[21 顺 便 说 一 下 ， 在 yylval 和 lex.yy.c 中 出 现 的 yy 指 的 是 我 们 将 在 
4.9 节 中 讨论 的 语法 分 析 器 生成 工具 yacc， 它 一 般 和 Lex 一 起 使 用 。 


[3 如果 Lex 同 Yacc 一 起 使 用 ， 那 么 明示 常量 通常 会 在 Yacc 程 序 中 定 
义 ， 并 在 Lex 程 序 中 不 加 定义 就 使 用 它们 。 因 为 lex.yy.c 是 和 Yacc 的 输 
出 一 起 编译 的 ， 因 而 这 些 常量 在 Lex 程 序 的 动作 中 也 是 可 用 的 。 


个 表达 式 的 用 途 就 是 定义 空 语言 。 


[4] 这 里 有 个 小 问题 : 按照 我 们 的 定义 ， 正 则 表达 不 能 描述 空 的 语 
言 ， 因 为 我 们 在 实践 中 从 不 会 想到 使 用 这 样 的 模式 。 但 是 ， 有 穷 自 动机 


可 以 定义 空 语言 。 在 理论 研究 中 ，8 被 视 为 一 个 额外 的 正则 表达 式 ， 这 


[51 在 实践 中 可 能 还 有 另 一 个 以 状态 为 下 标的 数组 ， 如 果菜 个 状态 
相关 的 动作 ， 那 么 这 个 数组 的 相应 元 素 会 指明 这 个 动作 。 


第 4 章 ” 语法 分 析 


本 章 介 绍 的 语法 分 析 方 法 通常 用 于 编译 器 中 。 我 们 首先 介绍 基本 概 
念 ， 然 后 介绍 适合 手工 实现 的 技术 ， 最 后 介绍 用 于 自动 化 工具 的 算法 。 
因为 源 程序 可 能 包含 语法 错误 ， 所 以 我 们 还 将 讨论 如 何 扩展 语法 分 析 方 
法 ， 以 便 从 第 见 错误 中 恢复 。 


在 设计 语言 时 ， 每 种 程序 设计 语言 都 有 一 组 精确 的 规则 来 描述 民 构 
(well-formed) 程序 的 语法 结构 。 比 如 ， 在 C 语 言 中 ， 一 个 程序 由 多 个 
函数 组 成 ， 一 个 函数 由 声明 和 语句 组 成 ， 一 个 语句 由 表达 式 组 成 ， 等 
等 。 程 序 设 计 语 言 构造 的 语法 可 以 使 用 2.2 节 中 介绍 的 上 下 文 无 关 文 法 
或 者 BNEF 〈 巴 库 斯 - 瑞 尔 范式 ) 表示 法 来 描述 。 文 法 为 语言 设计 者 和 编 
译 右 编写 者 都 提供 了 很 大 的 便利 。 


。 文法 给 出 了 一 个 程序 设计 语言 的 精确 易 懂 的 语法 规约 。 

。 对 于 菏 些 类 型 的 文法 ， 我 们 可 以 自动 地 构造 出 遍 效 的 语法 分 析 嚣 ， 
它 能 够 确定 一 个 源 程序 的 语法 结构 。 同 时 ， 语 法 分 析 器 的 构造 过 程 
可 以 揭示 出 语法 的 二 义 性 ， 同 时 还 可 能 发 现 一 些 容易 在 语言 的 初始 
设计 阶段 被 忽略 的 问题 。 

。 一 个 正确 设计 的 文法 给 出 了 一 个 语言 的 结构 。 该 结构 有 助 于 把 源 程 
序 翻 译 为 正确 的 目标 代码 ， 也 有 助 于 检测 错误 。 

。 一 个 文法 文 持 逐 步 加 入 可 以 完成 新 任务 的 新 语言 构造 从 而 迭代 地 演 
化 和 开发 语言 。 如 有 果 对 语言 的 实现 齐 循 语言 的 文法 结构 ， 那 么 在 实 
现 中 加 入 这 些 新 构造 的 工作 就 变 得 更 加 容易 。 














4.1 引 论 


在 本 节 中 ， 我 们 将 探讨 语法 分 析 圳 是 如 何 集成 到 一 个 典型 的 编译 器 
中 的 。 然 后 我 们 将 研究 算术 表达 式 的 典型 文法 。 通 过 表达 式 文法 已 经 足 
以 说 明 语 法 分 析 的 本 质 ， 因 为 处 理 表 达 式 的 语法 分 析 技术 可 以 用 于 处 理 
程序 设计 语言 的 大 部 分 构造 。 这 一 节 的 最 后 将 讨论 错误 处 理 的 问题 ， 因 
反应。 





4.1.1 语法 分 析 器 的 作用 


在 我 们 的 编译 器 模型 中 ， 语 法 分 析 器 从 词法 分 析 强 获得 一 个 由 词法 
单元 组 成 的 串 ， 并 验证 这 个 串 可 以 由 源 语言 的 文法 生成 ， 如 图 4-1 所 
示 。 我 们 期 望 语法 分 析 吉 能 够 以 易于 理解 的 方式 报告 语法 错误 ， 并 且 能 
够 从 常见 的 错误 中 恢复 并 继续 处 理 程序 的 其 余部 分 。 从 概念 上 讲 ， 对 于 
民 构 的 程序 ， 语 法 分 析 吉 构造 出 一 柠 语 法 分 析 树 ， 并 把 它 传递 给 编译 器 
的 其 他 部 分 进一步 处 理 。 实 际 上 ， 并 不 需要 显 式 地 构造 出 这 标语 法 分 析 
树 ， 因 为 正如 我 们 将 看 到 的 ， 对 源 程 序 的 检查 和 翻译 动作 可 以 和 语法 分 
0 
来 实现 。 


处 理 文法 的 语法 分 析 嚣 大体 上 可 以 分 为 三 种 类 型 通用 的 、 自 项 同 
下 的 和 自 底 向 上 的 。 像 Cocke-Younger-Kasami 算 法 和 Earley 算 法 这 样 的 
通用 语法 分 析 方 法 可 以 对 任意 文法 进行 语法 分 析 《〈 见 参考 文献 ) 。 然 
而 ， 这 些 通 用 方法 效率 很 低 ， 不 能 用 于 编译 器 产品 。 


编译 器 中 常用 的 方法 可 以 分 为 自 顶 向 下 的 和 自 底 向 上 的 。 顾 名 思 
义 ， 目 项 向 下 的 方法 从 语法 分 析 树 的 顶部 〈( 根 结 点 ) 开始 同 底部 (叶子 
结 皮 ) 构造 语法 分 析 树 ， 而 自 底 向 上 的 方法 则 从 叶子 结 颇 开始， 逐渐 问 
根 结 点 方 癌 构造 。 这 两 种 分 析 方 法 中 ， 语 法 分 析 需 的 输入 总 是 按照 从 左 
回 右 的 方式 被 扫描 ， 每 次 扫描 一 个 符号 。 














源 程序 
aa eal 





图 4-1 编译 器 模型 中 语法 分 析 器 的 位 置 


最 高 效 的 自 顶 向 下 方法 和 自 底 向 上 方法 只 能 处 理 某 些 文法 子 类 ,但 
其 中 的 某 些 子 类 ， 特 别 是 LL 和 LR 文法 ， 其 表达 能 力 已 经 足以 描述 现代 
程序 设计 语言 的 大 部 分 语法 构造 了 。 手 工 实现 的 语法 分 析 器 通常 使 用 
LL 文法 。 比 如 ，2.4.2 节 中 的 预测 语法 分 析 方 法 能 够 处 理 LL 文 法 。 处 理 
较 大 的 LR 文法 类 的 语法 分 析 器 通常 是 使 用 自动 化 工具 构造 得 到 的 。 


在 本 章 中 ， 我 们 假设 语法 分 析 器 的 输出 是 语法 分 析 树 的 东 种 表示 形 
式 。 该 语法 分 析 树 对 应 于 来 自 词法 分 析 右 的 词法 单元 流 。 在 实践 中 ， 语 
法 分 析 过 程 中 可 能 包括 多 个 任务 ， 比 如 将 不 同 词法 单元 的 信息 收集 到 符 
写 表 中 ， 进 行 类 型 检查 和 其 他 类 型 的 语义 分 析 ， 以 及 生成 中 间 代 码 。 我 
们 把 所 有 这 些 活动 都 归纳 到 图 4-1 中 的 “前 端的 其 余部 分 "里 面 。 在 后 续 
几 章 中 将 详细 讨论 这 些 活 动 。 








4.1.2 ”代表 性 的 文法 


为 了 便于 参考 ， 我 们 先 给 出 一 些 即将 在 本 章 中 加 以 研究 的 文法 。 对 
那些 以 while 或 int 这 样 的 关键 字 开 头 的 构造 进行 语法 分 析 相 对 容易 ， 因 
为 天 键 字 可 以 引导 我 们 选择 适当 的 文法 产生 式 来 匹配 输入 。 因 此 我 们 主 
0 0 
人 


下 面 的 文法 指明 了 运算 符 的 结合 性 和 优先 级 。 这 个 文法 和 我 们 在 第 
2 章 中 使 用 的 描述 表达 式 、 项 和 因子 的 文法 类 似 。E 表 示 一 组 以 + 号 分 隔 
的 项 所 组 成 的 表达 式 ; T 表 示 由 一 组 以 * 写 分 阳 的 因子 所 组 成 的 项 ， 而 F 
表示 因子 ， 它 可 能 是 括号 括 起 的 表达 式 ， 也 可 能 是 标识 符 : 


EsE+T|T 








T_TeFE|EF (4.1) 

F_-，(E) |id 
表达 式 文 法 〈4.1) 属于 LR 文法 类 ， 适 用 于 自 底 辐 上 的 语法 分 析 技 术 。 
这 个 文法 经 过 修改 可 以 处 理 更 多 的 运算 符 和 更 多 的 优先 级 层次 。 然 而 ， 
它 不 能 用 于 自 顶 回 下 的 语法 分 析 ， 因 为 它 是 左 递归 的 。 


下 面 给 出 表达 陈 文 法 〈4.1) 的 无 左 递 归 版 本 ， 该 版 本 将 家 用 于 目 
顶 向 下 的 语法 分 析 : 


E ,TE 
E' ,+ TE'|E 

TFT (4.2) 
T' ,*FT'|E 
F_-，(E) |id 


下 面 的 文法 以 相同 的 方式 处 理 + 和 *， 因 此 它 可 以 用 来 说 明 那 些 在 语 
法 分 析 过 程 中 处 理 二 义 性 的 技术 : 


ELSE+E|IE*E| (E) |id (4.3) 

这 里 的 E 表 示 各 种 类 型 的 表达 式 。 文 法 (4.3) 允许 一 个 表达 式 ， 比 如 
at+b*c， 具 有 多 棵 语法 分 析 树 。 

4.1.3 ”语法 错误 的 处 理 


本 节 的 其 余部 分 将 考虑 语法 错误 的 本 质 以 及 错误 恢复 的 一 般 策略 。 
其 中 的 两 种 策略 分 别称 为 恐慌 模式 和 短语 层次 恢复 。 它 们 将 和 特定 的 语 
法 分 析 方法 一 起 详细 讨论 。 








如 果 编 译 器 只 处 理 正 确 的 程序 ， 那 么 它 的 设计 和 实现 将 会 大 大 简 
化 。 但 是 ， 人 们 还 期 望 编译 器 能 够 帮助 程序 员 定位 和 跟踪 错误 。 因 为 不 


管 程序 员 如 何 努 力 ， 程 序 中 难免 会 有 错误 。 令 人 人 恢 奇 的 是 ， 虽 然 错误 如 
此 常见 ， 但 很 少 有 语言 在 设计 的 时 候 残 考虑 到 错误 处 理 问 题 。 如 果 我 们 
的 口语 也 像 计 算 机 语言 那样 对 语法 精确 性 有 要 求 ， 那 么 我 们 的 文明 就 会 
大 不 相同 。 大 部 分 程序 设计 语言 的 规范 没有 规定 编译 避 应 该 如 果 处 理 错 
误 ; 错误 处 理 方法 由 编译 器 的 设计 者 决定 。 从 一 开始 就 计划 好 如 何 进行 
错误 处 理 不 仅 可 以 简化 编译 器 的 结构 ， 还 可 以 改进 错误 处 理 方法 。 


程序 可 能 有 不 同 层次 的 错误 。 


。 词法 错误 ， 包 括 标 识 符 、 关 键 字 或 运算 符 拼 写 错 误 〈 比 如 把 标识 
符 ellipsesize 写 成 elipsesize) 和 没有 在 字符 串 文 本 上 正确 地 加 上 
引号 。 

语法 错误 ， 包 插 分 号 放 错 地 方 、 兹 括号 ， 即 “{” 或 “}”， 多 余 或 缺 
失 。 男 一 个 C 语 言 或 Java 语 言 中 的 语法 错误 的 例子 是 一 个 case 语 句 
的 外 围 没 有 相应 的 switch 语 句 ( 然 而， 语法 分 析 器 通常 允许 这 种 情 
况 出 现 ， 当 编译 器 在 之 后 要 生成 代码 时 才 会 发 现 这 个 错误 ) 。 
语义 错误 ， 包 括 运算 符 和 运算 分 量 之 间 的 类 型 不 匹配 。 例 如 ， 返 回 
类 型 为 void 的 某 个 Java 方 法 中 出 现 了 一 个 返回 某 个 值 的 return 语 
二 
逮 辑 错误 ， 可 以 是 因 程 序 员 的 错误 推理 而 引起 的 任何 错误 。 比 如 在 
一 个 C 程 序 中 应 该 使 用 比较 运算 符 == 的 地 方 使 用 了 赋值 运算 符 =。 
这 样 的 程序 可 能 是 良 构 的 ， 但 是 却 没有 正确 反映 出 程序 员 的 意图 。 


语法 分 析 方 法 的 精确 性 使 得 我 们 可 以 非常 高 效 地 检测 出 语法 错误 。 
有 些 语法 分 析 方 法 ， 比 如 LL 和 LR 方 法 ， 能 够 在 第 一 时 间 发 现 错误 。 也 
就 是 说 ， 当 来 自 词法 分 析 器 的 词法 单元 流 不 能 根据 该 语言 的 文法 进一步 
分 析 时 就 会 发 现 错误 。 更 精确 地 讲 ， 它 们 具有 可 行 前 级 特性 (viable- 
prefix property〉， 也 就 是 说 ， 一 旦 它们 发 现 输入 的 某 个 前 级 不 能 够 通过 
添加 一 些 符号 而 形成 这 个 语言 的 串 ， 束 可 以 立刻 检测 到 语法 错误 。 


要 重视 错误 恢复 的 另 一 个 原因 是 ， 不 管 产生 错误 的 原因 是 什么 ， 很 
多 错误 都 以 语法 错误 的 方式 出 现 ， 并 且 在 不 能 继续 进行 语法 分 析 时 暴露 
出 来 。 有 些 语义 错误 《比如 类 型 不 匹配 ) 也 可 以 被 高 效 地 检测 到 。 然 
人 


语法 分 析 器 中 的 错误 处 理 程 序 的 目标 说 起 来 很 简单 ， 但 实现 起 来 却 
很 有 挑战 性 : 




















。 清晰 精确 地 报告 出 现 的 错误 。 
。 能 很 快 地 从 各 个 错误 中 恢复 ， 以 继续 检测 后 面 的 错误 。 
。 尽 可 能 少 地 增加 处 理 正 确 程序 时 的 开销 。 


幸运 的 是 ， 和 见 的 错误 都 很 简单 ， 使 用 相对 直接 的 错误 处 理 机 制 融 
足以 达到 目标 。 


一 个 错误 处 理 程序 应 该 如 何 报告 出 现 的 错误 ? 至 少 ， 它 必须 报告 在 
源 程序 的 什么 位 置 检测 到 错误 ， 因 为 实际 的 错误 很 可 能 束 出 现在 这 个 位 
置 之 前 的 几 个 词法 单元 处 。 一 个 常用 的 全 略 是 打印 出 有 问题 的 那 一 行 ， 
然后 用 一 个 指针 指向 检测 到 错误 的 地 方 。 





4.1.4 ”错误 恢复 策略 





当 检 测 到 一 个 错误 时 ， 语 法 分 析 器 应 该 如 何 恢复 ? 虽然 还 没有 哪个 
打上 略 能 够 证 明 目 己 是 被 普 衣 接受 的 ， 但 有 一 些 方 法 的 适用 范围 很 广 。 最 
简单 的 方法 是 让 语法 分 析 器 在 检测 到 第 一 个 错误 时 给 出 错误 提示 信息 ， 
然后 退出 。 如 果 语 法 分 析 器 能 够 把 自己 恢复 到 茶 个 状态 ， 且 有 理由 预期 
从 那里 开始 继续 处 理 输入 将 提供 有 意义 的 诊断 信息 ， 那 么 它 通 冲 会 及 现 
更 多 的 错误 。 如 果 错 误 太 多 ， 那 么 最 好 让 编译 器 在 超过 东 个 错误 数量 上 
人 
更 好 。 


恐 惨 模 式 的 恢复 


使 用 这 个 方法 时 ， 语 法 分 析 嚣 一旦 发 现 错 误 束 不 断 丢 弃 输 入 中 的 符 
号 ， 一 次 丢弃 一 个 符号 ， 直 到 找到 同步 词法 单元 (synchronizing token) 
集合 中 的 某 个 元 素 为 止 。 同 步 词法 单元 通常 是 界限 符 ， 比 如 分 号 或 
者 }。 它 们 在 源 程序 中 的 作用 是 清晰 、 无 二 义 的 。 编 译 器 的 设计 者 必须 
为 源 语言 选择 适当 的 同步 词法 单元 。 仆 慌 模 式 的 错误 纠正 方法 稼 各 会 跳 
过 大 量 输入 ， 不 检查 被 跳 过 部 分 的 其 他 错误 。 但 是 它 很 简单 ， 并 且 能 够 
pe A 

限 循环 。 


短语 层次 的 恢复 











当 发 现 一 个 错误 时 ， 语 法 分 析 器 可 以 在 余下 的 输入 上 进行 局 部 性 纠 
正 。 也 就 是 说 ， 它 可 能 将 余下 输入 的 从 个 前 级 丛 换 为 男 一 个 串 ， 使 语法 
分 析 器 可 以 继续 分 析 。 和 用 的 局 部 纠正 方法 包括 将 一 个 逗号 人 符 换 为 分 
号 、 删 除 一 个 多 余 的 分 号 或 者 插入 一 个 遗漏 的 分 号 。 如 何 选 择 局 部 纠正 
方法 是 由 编译 器 设计 者 决定 的 。 当 然 ， 我 们 必须 小 心 选择 替换 方法 ， 以 
避免 进入 无 限 循 环 。 比 如 ， 如 果 我 们 总 是 在 当前 输入 符 写 之 前 插入 符 
号 ， 就 会 出 现 无 限 循 环 。 


短语 层次 蔡 换 方法 已 经 在 多 个 错误 修复 型 编译 器 中 使 用 ， 它 可 以 纠 
en 
置 之 前 的 情况 。 


错误 产生 式 


通过 预测 可 能 过 到 的 常见 错误 ， 我 们 可 以 在 当前 语言 的 文法 中 加 入 
特殊 的 产生 式 。 这 些 产生 式 能 够 产生 含有 错误 的 构造 ， 从 而 基于 增加 了 
错误 产生 式 的 文法 构造 得 到 一 个 语法 分 析 器 。 如 果 语 法 分 析 过 程 中 使 用 
了 某 个 错误 产生 式 ， 语 法 分 析 峰 束 检 测 到 了 一 个 预期 的 错误 。 语 法 分 析 
器 能 够 据 此 生成 适当 的 错误 诊断 信息 ， 指 出 在 输入 中 识别 出 的 错误 构 


Mi 
JS 。 











全 局 纠正 


在 理想 情况 下 ， 我 们 希望 编译 器 在 处 理 一 个 错误 输入 串 时 通过 最 少 
的 改动 将 其 转化 为 语法 正确 的 串 。 有 些 算法 可 以 选择 一 个 最 小 的 改动 序 
列 ， 得 到 开销 最 低 的 全 局 性 纠正 方法 。 给 定 一 个 不 正确 的 输入 x 和 文法 
G， 这 些 算法 将 找 出 一 个 相关 串 y 的 语法 分 析 树 ， 使 得 将 x 转换 为 y 所 需 
要 的 插入 、 删 除 和 改变 的 词法 单元 的 数量 最 少 。 遗 憾 的 是 ， 从 时 间 和 空 
nn 
理论 价值 。 


请 注意 ， 一 个 最 接近 正确 的 程序 可 能 并 不 是 程序 员 想 要 的 程序 。 不 
党 怎样 ， 最 低 开销 纠正 的 概念 仍然 提供 了 一 个 可 用 于 评价 错误 恢复 技术 
的 指标 ， 并 已 经 用 于 为 短语 层次 的 恢复 寻找 最 佳 蔡 换 串 。 
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2.2 节 中 己 经 介绍 了 文法 的 概念 。 在 那里 ， 它 用 于 系统 地 描述 程序 
设计 语言 的 构造 〈 比 如 表达 式 和 语句 ) 的 语法 。 下 面 的 产生 式 使 用 语法 
变量 stmt 来 表示 语句 ， 使 用 变量 expr 表 示 表 达 式 。 








stmt 一 证 (expr) stmt else stmt (4.4) 


上 述 产 生 式 描述 了 这 种 形式 的 条 件 语句 的 结构 。 其 他 产生 式 则 精确 地 定 
义 了 expr 是 什么 ， 以 及 stmt 可 以 是 什么 。 


这 一 节 将 回顾 上 下 文 无 关 文法 的 定义 ， 并 介绍 了 在 讨论 语法 分 析 技 
术 时 要 用 到 的 一 些 术语 。 特 别 地 ， 推 导 的 概念 在 讨论 产生 陈 在 分 析 过 程 
中 的 应 用 顺序 时 非常 有 用 。 








421 上下文 无 天 文法 的 正式 定义 


根据 2.2 节 的 介绍 可 知 ， 一 个 上 下 文 无 关 文 法 (简称 文法 ) 由 终结 
符号 、 非 终结 符号 、 一 个 开始 符号 和 一 组 产生 式 组 成 。 


1) 终结 符号 是 组 成 串 的 基本 符 写 。 术 语 “ 词 法 单元 名 字 ” 是 “终结 符 
写 ” 的 同义词 。 当 我 们 讨论 的 显然 是 词法 单元 的 名 字 时 ， 我 们 经 和 常 使 
用 “词法 单元 ”这 个 词 来 指称 终结 符号 。 我 们 假设 终结 符号 是 词法 分 析 器 
输出 的 词法 单元 的 第 一 个 分 量 。 在 (4.4) 中 ， 终 结 符 号 是 关键 字 让 和 
else 以 及 符号 ”(” 和 “) ”。 


2) 非 终 结 符号 是 表示 串 的 集合 的 语法 变量 。 在 〈4.4) 中 ，stmt 和 
expr 是 非 终 结 符号 。 非 终结 符号 表示 的 串 集 合用 于 定义 由 文法 生成 的 语 
言 。 非 终结 符号 给 出 了 语言 的 层次 结构 ， 而 这 种 层次 结构 是 语法 分 析 和 
翻译 的 关键 。 


”3) 在 一 个 文法 中 ， 某 个 非 终结 符号 被 指定 为 开始 符号 。 这 个 符号 
表示 的 串 集合 就 是 这 个 文法 生成 的 语言 。 按 照 惯例 ， 首 先 列 出 开始 符号 




















的 产生 式 : 


”4) 一 个 文法 的 产生 式 摘 述 了 将 终结 符号 和 非 终结 符号 组 合成 串 的 
方法 。 每 个 产生 式 由 下 列 元 素 组 成 : 
”一 个 被 称 为 产生 式 头 或 左 部 的 非 终结 符号 。 这 个 产生 式 定 义 了 
这 个 头 所 代表 的 串 集 合 的 一 部 分 。 

外 符号 ~ 。 有 时 也 使 用 ::= 来 蔡 代 箭 头 。 

(3) 一 个 由 零 个 或 多 个 终结 符号 与 非 终 结 符号 组 成 的 产生 式 体 或 右 


部 。 产 生 式 体 中 的 成 分 描述 了 产生 式 头 上 的 非 终 结 符 号 所 对 应 的 串 的 茶 
种 构造 方法 。 


图 4-2 中 的 文法 定义 了 简单 的 算术 表达 式 。 在 这 个 文法 中 ， 终 结 


付 扎 下 








id+-*/() 


expression + term 
erpression — term 
term 

term * factor 
term / factor 
factor 

( exrpression ) 

1d 


ETpress1i0nN 
eTpression 
eTpressi0n 


term 
term 
term 
factor 
factor 


二 由 小 本 二 出 直 寺 





图 4-2 简单 算术 表达 式 的 文法 


4.2.2 ”符号 表示 的 约定 


是 
等 ， 在 本 书 的 其 余部 


情 


为 了 避免 总 是 声明 “这 些 是 终结 符号 "，“ 这 些 是 非 终结 符号 ”等 
aS 人 A 
Fh 必 


将 对 文法 符号 的 表示 使 用 以 下 约定 。 
1) 下 述 符 号 是 终结 符号 : 

QD 在 字母 表 里 排 在 前 面 的 小 写字 母 ， 比 如 a、b、c。 
名 运算 符号 ， 比 如 +、* 等 。 

多 标点 符号 ， 比 如 括号 、 有 逗号 等 。 

由 数字 0、1、.…、9。 


加 黑体 字符 串 ， 比 如 id 或 证。 每 个 这 样 的 字符 串 表 示 一 个 终结 符 


2) 下 述 符号 是 非 终结 符 号 : 
Q 在 字母 表 中 排 在 前 面 的 大 写字 母 ， 比 如 A、B、C。 
@ 字母 S。 它 出 现时 通常 表示 开始 符号 。 


@) 小 写 、 冬 体 的 名 字 ， 比 如 expr 或 stmt。 





出 当 讨 论 程序 设计 语言 的 构造 时 ， 大 写字 母 可 以 用 于 表示 代表 程 
序 构造 的 非 终 结 符 号 。 比 如 ， 表 达 式 、 项 和 因子 的 非 终 结 符 号 通常 分 另 


用 E、T 和 F 表 示 。 


号 。 





3) 在 字母 表 中 排 在 后 面 的 大 写字 母 (比如 X、Y、Z) 表示 文法 符 


也 就 是 说 ， 表 示 非 终结 符号 或 终结 符号 。 


4) 在 字母 表 中 排 在 后 面 的 小 写字 母 〈 主 要 是 u、V、.…、z) 表示 





(可 能 为 空 的 ) 终结 符号 串 。 


5) 小 写 的 希腊 字母 ， 比 如 qa、B、y， 表 示 (可 能 为 空 的 ) 文法 符号 


| 


串 。 因 此 ， 一 个 普通 的 产生 式 可 以 写作 A -~ a， 其 中 A 是 产生 式 的 头 ，a 
是 产生 式 的 体 。 


6) 具有 相同 的 头 的 一 组 产生 式 A~oj，A~o，..，A-~oalk (A 产 生 
式 ) 可 以 写作 A- oaloz|…|ol。 我 们 把 o，o，…，ok 称 作 A 的 不 同 可 选 
体 。 


7) 除非 特别 说 明 ， 第 一 个 产生 式 的 头 就 是 开始 符号 。 
[了 加 按照 这 些 约定 ， 例 子 4.5 的 文法 可 以 改 为 如 下 更 加 简单 的 形式 : 
ESE+T|IE-TI|T 
Ts T*F|T/F|F 
FE- (E) |id 


上 面 的 符号 表示 约定 告诉 我 们 E、T 和 F 是 非 终 结 符号 ， 其 中 E 是 开始 符 
写 。 其 余 的 符 写 是 终结 符号 。 





4.2.3 ”推导 


将 产生 式 看 作 重 写 规则 ， 就 可 以 从 推导 的 角度 精确 地 描述 构造 语法 
分 析 树 的 方法 。 从 开始 符号 出 发 ， 每 个 重 写 步 骤 把 一 个 非 终结 符号 蔡 换 
为 它 的 某 个 产生 式 的 体 。 这 个 推导 思想 对 应 于 自 顶 向 下 构造 语法 分 析 树 
的 过 程 ， 但 是 推导 概念 所 给 出 的 精确 性 在 讨论 自 底 向 上 的 语法 分 析 过 程 
时 尤其 有 用 。 正 如 我 们 将 看 到 的 ， 自 底 向 上 语法 分 析 和 一 种 被 称 为 最 
右 ” 推 导 的 推导 类 型 相关 。 在 这 种 推导 过 程 中 ， 每 一 步 重 写 的 都 是 最 右 
边 的 非 终 结 符号 。 


比如 ， 考 虑 下 列 只 有 一 个 非 终结 符号 E 的 文法 。 它 在 文法 (4.3) 中 
增加 了 一 个 产生 式 E ~ -E: 


ESE+E|IE*E|-E| (E) |id (4.7) 
产生 式 E --E 表 明 ， 如 果 E 表 示 一 个 表达 式 ， 那 么 -E 必 然 也 表示 一 个 表达 














式 。 将 一 个 EE 替换 为 -的 过 程 写作 
上 一 -上 


上 式 读 作 吓 推 导出 -E”?。 产 生 式 E-，(E) 可 以 将 任何 文法 符号 串 中 出 现 
的 E 的 任何 实例 替换 为 (E) 。 比 如 ，E*E=> (E) * 上 或 E* E 坟 E 

* (EE) 。 我 们 可 以 按照 任意 顺序 对 单个 E 不 断 地 应 用 各 个 产生 式 ， 得 到 
一 个 替换 的 序列 。 比 如 : 


ES-ES- (E) 一 - (id) 


我 们 将 这 个 替换 序列 称 为 从 E 到 -〈id) 的 推导 。 这 个 推导 证 明了 串 - 
(id) 是 表达 式 的 一 个 实例 。 


要 给 出 推导 的 一 般 性 定义 ， 考 虑 一 个 文法 符号 序列 中 间 的 非 终结 符 
号 A， 比 如 aAB， 其 中 aq 和 是 任意 的 文法 符号 串 。 假 设 A -y 是 一 个 产生 
式 。 那 么 我 们 写作 aAB 一 ayB。 符 号 之 表示 “通过 一 步 推导 出 ”。 当 一 个 推 
导 序 列 o1 之 oo 之 .全 om 将 al 蔡 换 为 om， 我 们 说 o 推 导出 on。 我 们 经 党 
说 “经 过 零 步 或 多 步 推 导出 ”， 我 们 可 以 使 用 符号 之 来 表示 这 种 关系 。 
因此 ， 


1) 对 于 任何 串 a，aw 坊 a， 并 且 
2) 如 果 aw 过 8 且 B 一 Y， 那 么 Qa 之 y。 
类 似 地 ， 之 表示 “经 过 一 步 或 多 步 推导 出 ”。 


如 果 $ 性 ， 其 中 S 是 文法 G 的 开始 符号 ， 我 们 说 a 是 G 的 一 个 句 型 
(sentential form) 。 请 注意 ， 一 个 句 型 可 能 既 包 含 终结 符号 又 包含 非 终 
结 人 符号， 也 可 能 是 空 串 。 文 法 G 的 一 个 句子 〈sentence) 是 不 包含 非 终结 
符号 的 句 型 。 一 个 文法 生成 的 语言 是 它 的 所 有 人 句子 的 集合 。 因 此 ， 一 个 
终结 符号 串 w 在 G 生 成 的 语言 L(G)〉 中 ， 当 且 仅 当 w 是 G 的 一 个 句子 
(或 者 说 $s wo) 。 可 以 由 文法 生成 的 语言 被 称 为 上 下 文 无 关 语言 
Ccontext-free language) 。 如 果 两 个 文法 生成 相同 语言 ， 这 两 个 文法 就 
被 称 为 是 等 价 的 。 


串 - 〈id+id) 是 文法 〈4.7) 的 一 个 句子 ， 因 为 存在 一 个 推导 过 程 














ES- ES- (E) SS- (E+E) SS- (id+E) SS- (id +id) (4.8) 


串 E、-E、- (E) 、...、- (id+id〉 都 是 这 个 文法 的 句 型 。 我 们 用 
EF 二 - (id rid) 来 指明 - (id +id)〉 可 以 从 E 推 导 得 到 。 


在 每 一 个 推导 步骤 上 都 需要 做 两 个 选择 。 我 们 要 选择 符 换 哪个 非 终 
结 符号 ， 并 且 在 做 出 这 个 决定 之 后 ， 还 必须 选择 一 个 以 此 非 终 结 符 号 作 
为 头 的 产生 式 。 比 如 ， 下 面 给 出 的 - (id +id) 的 另 一 种 推导 和 推导 
(4.8) 在 最 后 两 步 有 所 不 同 : 


ES- ES- (上 E) SS- (E+E) SS- (E+id) 一 - (id +id ) (4.9) 


在 这 两 个 推导 中 ， 每 个 非 终结 符号 都 被 普 换 为 同一 个 产生 式 体 ， 但 
丛 换 的 顺序 有 所 不 同 。 


为 了 理解 语法 分 析 器 是 如 何 工 作 的， 我 们 将 考虑 在 每 个 推导 步 又 中 
按照 如 下 方式 选择 被 葵 换 的 非 终 结 符号 的 两 种 推导 过 程 : 


1) 在 最 左 推 导 (leftmost derivation) 中 ， 总 是 选择 每 个 句 型 的 最 左 
非 终 结 符号 。 如 果 a 寺 BB 是 一 个 推导 步 又 ， 且 被 蔡 换 的 是 a 中 的 最 左 非 终 


结 符 号 ， 我 们 写作 & 于 Pb。 











2) 在 最 右 推导 (rightmost derivation) 中 ， 总 是 选择 最 右边 的 非 终 
结 符号 ， 此 时 我 们 写作 Q 之 有 。 推 导 〈4.8) 是 最 左 推导 ， 因 此 它 可 以 


写成 


E>- E>- (EE)- (E+E)=- (id+E)=-(idt+tid) 


请 注意 ， 推 导 (4.9) 是 一 个 最 右 推导 。 

根据 我 们 的 符号 表示 惯例 ， 每 个 最 左 推导 步骤 都 可 以 写成 
wAy 全 067 ， 其 中 w 只 包含 终结 符号 ，A -6 是 被 应 用 的 产生 式 ， 而 y 是 
一 个 文法 符号 种 。 为 了 强调 a 经 过 一 个 最 左 推导 过 程 得 到 B， 我 们 写作 
a 6 。 如 果 S 之 a ， 那么 我 们 说 a 是 当前 文法 的 最 左 句 型 (left- 


sentential form ) 。 


对 于 最 右 推导 也 有 类 似 的 定义 。 最 右 推 寻 有 时 也 称 为 规范 推导 














(canonical derivation ) 。 


4.2.4 语法 分 析 树 和 推导 





语法 分 析 树 是 推导 的 图 形 表示 形式 ， 它 过 滤 挥 了 推导 过 程 中 对 非 终 
结 符号 应 用 产生 云 的 顺序 。 语 法 分 析 树 的 每 个 内 部 结 点 表示 一 个 产生 式 
的 应 用 。 该 内 部 结 点 的 标号 是 此 产生 式 头 中 的 非 终结 符号 A， 这 个 结 点 
的 子 结 反 的 标号 从 左 到 右 组 成 了 在 推导 过 程 中 人 亚 换 这 个 A 的 产生 式 体 。 


比如 ， 图 4-3 中 ，- (id + id) 的 语法 分 析 树 是 根据 推导 〈4.8) 得 到 
的 ， 它 也 可 以 根据 推导 〈4.9) 得 到 。 








AN 
/IN, 
| | 


id id 
图 4-3 一 (id+id) 的 语法 分 析 树 


一 村 语法 分 析 树 的 叶子 结 扣 的 标号 既 可 以 是 非 终结 得 号， 也 可 以 是 
终结 符号 。 从 左 到 右 排列 这 些 符号 就 可 以 得 到 一 个 名 型， 它 称 为 这 标 树 
的 结果 〈yield) 或 边缘 (frontier) 。 


为 了 了 解 推 导 和 语法 分 析 树 之 间 的 关系 ， 考 虑 任意 的 推导 
oj 之 oo 之 .全 oa， 其 中 oj 是 单个 非 终 结 符 号 A。 对 于 推导 中 的 每 个 句 型 
， 我 们 可 以 构造 出 一 个 结果 为 a; 的 语法 分 析 树 。 这 个 构造 过 程 是 对 i 的 
一 次 归纳 过 程 。 


基础 : oi=A 的 语法 分 析 树 就 是 标号 为 A 的 单个 结 点 。 








归纳 步骤 : 假设 我 们 已 经 构造 出 了 一 棵 结果 为 qi=XIX2?.…X 的 语 
法 分 析 树 〈 请 注意 ， 按 照 我 们 的 符号 表示 约定 ， 每 个 文法 符号 又 可 以 是 
非 终结 符号 ， 也 可 以 是 终结 符号 ) 。 假 设 % 是 将 ai 中 的 某 个 非 终结 符号 
Xj 蔡 换 为 p=YiY2.…Ym 而 得 到 的 名 型 。 也 就 是 说 ， 在 这 个 推导 的 第 i 步 
中 ， 对 oil 应 用 规则 Xi ~B， 推 导出 qi=XIX2.…Xj-1PBXij+1.…Xk。 


为 了 模拟 这 一 推导 步 又， 我 们 在 当前 的 语法 分 析 树 中 找 出 左 起 第 j 
个 非 E 叶 子 结 点 。 这 个 结 点 的 标 写 为 X。 同 这 个 叶子 结 点 添加 m 个 子 结 
点 ， 从 左边 开始 分 别 将 这 些 子 结 点 标号 为 Yi]、Y，、...、Y%。 作 为 一 种 
特殊 情况 ， 如 果 m=0， 那 么 B=E ， 我 们 给 第 ) 个 叶子 结 点 加 上 一 个 标号 
为 E 的 子 结 点 。 


根据 推导 (4.8) 构造 得 到 的 语法 分 析 树 的 序列 显示 在 图 4-4 
。 推 导 的 第 一 步 是 E 之 -E。 为 了 模拟 这 一 步 ， 我 们 将 标号 分 别 为 -和 下 
的 两 个 子 结 点 加 到 第 一 棵 树 的 根 结 点 E 上 ， 得 到 第 二 标语 法 分 析 树 。 


这 个 推导 的 第 二 步 是 -E 坟 -(E) 。 相 应 地 ， 将 标号 分 别 为 (、 
E、) 的 三 个 子 结 点 加 到 第 二 柠 树 中 标号 为 E 的 叶子 结 点 上 ， 得 到 结果 
为 -(E) 的 第 三 棵 树 。 按 照 这 个 方法 继续 下 去 ， 我 们 就 得 到 了 完整 的 语 
法 分 析 树 ， 即 第 六 株 树 。 

因为 语法 分 析 树 忽略 了 和 葵 换 句 型 中 符号 的 不 同 顺 序 ， 所 以 在 推导 和 


语法 分 析 树 之 间 具 有 多 对 一 的 关系 。 比 如 ， 推 导 《〈4.8) 和 (4.9) 都 和 
图 4-4 中 的 最 后 一 棵 语法 分 析 树 关联 。 











Eb 和 > E = 
RN 二 SS 
Fan Pa Ea 
( EM ) ( _E) 
2 天 | SS AN 
EE i++ E EE + 五 E + bE 
上 
图 4-4 ”推导 (4.8) 的 语法 分 析 树 序列 


因为 在 语法 分 析 树 和 最 左 推导 /最 右 推导 之 间 存 在 一 对 一 的 关系 ， 
所 以 在 接 下 来 的 内 容 中 ， 我 们 将 频 标 地 通过 构 霹 最 区 推导 或 最 右 推导 来 
i 最 左 或 最 右 推导 都 以 一 0 

因此 它们 也 过 滤 挥 了 顺序 上 的 不 同 。 不 难说 明 ， 每 一 棵 语法 分 析 树 
都 和 唯一 的 最 左 推导 及 唯一 的 最 右 推导 相关 联 。 




















4.2.5 二 人 义 性 


根据 2.2.4 节 的 介 绍 可 知 ， 如 果 一 个 文法 可 以 为 人 个 句子 生成 多 标语 
法 分 析 树 ， 那 么 它 就 是 义 性 的 〈ambiguous) 。 换 句 话 说， 二 义 性 文 
法 就 是 对 同一 个 甸子 有 多 不 最 在 失 于 或 多 个 最 右 推导 的 文法 。 


本 算术 表达 式 文 法 〈4.3) 允许 句子 id + id * id 具有 两 个 最 左 推 








Ek = E+E Ek = ExE 
一 id+kE 一 E+Ex*xEk 
一 id+Ek*bh 一 id+Ehk*xE 
一 id+id*x*E 一 id+id*E 
一 id+id * id 一 id +id * id 


相应 的 语法 分 析 树 如 图 4-5 所 示 。 


E pb 
I、 | 
b 十 Eb Eb 水 E 
| | ss | ss | 
id Eb * Eb E 十 万 id 
| | | ] 

ld id id id 
a) b) 


图 4-5 id+id*id 的 两 棵 语法 树 


请 注意 ， 图 4-5a 中 的 语法 分 析 树 反映 了 通常 的 + 和 * 之 间 的 优先 级 关 
系 ， 而 图 4-5b 中 的 语法 分 析 树 则 没有 反映 出 这 一 点 。 也 就 是 将， 按照 惯 
例 ， 应 该 将 运算 符 * 当 作 优 先 级 高 于 + 的 运算 符 来 处 理 ， 相 应 地 ， 我 们 通 
常 将 a+b* c 这 样 的 表达 式 按照 a+ (b*c) ， 而 不 是 Ca+b) * c 的 方式 
进行 求 值 。 


大 部 分 语法 分 析 器 都 期 望 文法 是 无 二 义 性 的 ， 否 则 ， 我 们 就 不 能 状 
个 句子 唯一 地 选 定 语法 分 析 树 。 在 某 些 情况 下 ， 使 用 经 过 精心 选择 的 
二 义 性 文法 也 可 以 带 来 方便 。 但 同时 需要 使 用 消 二 义 性 规则 
(disambiguating rule) 来 “抛弃 ?不 想 要 的 语法 分 析 树 ， 只 为 每 个 句子 留 
下 一 棵 语法 分 析 树 。 





4.2.6 ”验证 文法 生成 的 语言 


推断 出 一 个 给 定 的 产生 式 集 合生 成 了 某 种 特定 的 语言 是 很 有 用 的 ， 
尽管 编译 器 的 设计 者 很 少 会 对 整个 程序 设计 语言 文法 做 这 样 的 事情 。 当 
研究 一 个 环 手 的 构造 时 ， 我 们 可 以 写 出 该 构造 的 一 个 简洁 、 抽 象 的 文 
和 我 们 将 为 下 面 的 条 件 语 名 构造 出 这 样 的 
汉人 


证 明文 法 G 生 成 语言 L 的 过 程 可 以 分 成 两 个 部 分 : 证 明 G 生 成 的 每 个 
串 都 在 L 中 ， 并 且 反 向 证 明 L 中 的 每 个 串 都 确实 能 由 G 生 成 。 


[网 考 虑 下 面 的 文法 : 
S_,, (S) SEE (4.13) 


初 看 可 能 不 是 很 明显 ， 但 这 个 简单 的 文法 确实 生成 了 所 有 有 具有 对 称 括号 
对 的 串 ， 并 且 只 生成 这 样 的 串 。 为 了 说 明 原 因 ， 我 们 将 首先 说 明 从 Ss 推 
叶 得 到 的 每 个 句子 都 是 括 写 对 称 的 ， 然 后 说 明 每 个 括号 对 称 的 串 都 可 以 
从 S 推 导 得 到 。 为 了 证 明 从 S 推 导出 的 每 个 句子 都 是 括号 对 称 的 ， 我 们 对 
推导 步 数 n 进 行 归纳 。 


基础 ， 基础 是 n=1。 唯 一 可 以 从 S 经 过 一 步 推导 得 到 的 终结 符号 串 是 
空 串 ， 它 当然 是 括号 对 称 的 ，。 


归纳 步骤 : 现在 假设 所 有 步 数 少 于 n 的 推导 都 得 到 括号 对 称 的 句 
， 并 考虑 一 个 恰巧 有 n 步 的 最 左 推 导 。 这 样 的 推导 必然 具有 如 下 形 
I\: 











S53)S S(x)S SS(r)y 


从 S 到 x 和 y 的 推导 过 程 都 少 于 n 步 ， 因 此 根据 归纳 假设 ，x 和 y 都 是 括号 对 
称 的 。 因 此 ， 串 〈x) y 必 然 是 括号 对 称 的 。 也 就 是 说 ， 它 具有 相同 数量 
的 左 括号 和 右 括号， 并 且 它 的 每 个 前 绥 中 的 左 括号 不 少 于 右 括 号 。 

现在 已 经 证 明了 可 以 从 S$ 推 导出 的 任何 串 都 是 括号 对 称 的 ， 接 下 来 
我 们 必须 证 明 每 个 括号 对 称 的 串 都 可 以 从 S 推 导 得 到 。 为 了 证 明 这 一 
点 ， 我 们 对 串 的 长 度 进行 归纳 。 


基础 :如果 串 的 长 上 度 是 0， 它 必然 是 Ee 。 这 个 串 是 括号 对 称 的 ， 且 


可 以 从 S 推 导 得 到 。 


归纳 步骤 : 首先 请 注意 ， 每 个 括号 对 称 的 串 的 长 度 是 偶数 。 假 设 每 
个 长 度 小 于 2n 的 括号 对 称 的 串 都 能 够 从 S 推 导 得 到 ， 并 考虑 一 个 长 度 为 
2n (n>1) 的 括号 对 称 的 串 w。w 一 定 以 左 括号 开头 。 令 〈X) 是 Ww 的 最 
短 的 、 左 括号 个 数 和 右 括号 个 数 相同 的 非 空前 缀 ， 那 么 w 可 以 写成 
w= 〈X) y 的 形式 ， 其 中 x 和 y 者 是 括号 对 称 的 。 因 为 x 和 y 的 长 度 都 小 于 
2n， 根 据 归 纳 假设 ， 它 们 可 以 从 S 推 导 得 到 。 因 此 ， 我 们 可 以 找到 一 个 
如 下 形式 的 推导 : 











S=3(5)S (x)S Sx)y 


它 证 明 w= (x) y 也 可 以 从 S 推 导 得 到 。 


4.2.7 ”上下文 无 天 文法 和 正则 表达 式 





在 结束 关于 文法 及 其 性 质 的 讨论 之 前 ， 我 们 要 说 明文 法 是 比 正则 表 
达 式 表达 能 力 更 强 的 表示 方法 。 每 个 可 以 使 用 正则 表达 式 描 述 的 构造 都 
可 以 使 用 文法 来 描述 ， 但 是 反之 不 成 过 。 换 句 话 说， 每 个 正则 语言 都 是 
一 个 上 下 文 无 头 语言， 但 是 反之 不 成 立 。 


比如 ， 正 则 表达 式 (alb) “abb 和 文法 








Ao—=aAo|bAolaAl 
A1 >bA, 
A = bAs 
= 
描述 了 同一 个 语言 ， 即 以 abb 结 尾 的 由 a 和 b 组 成 的 串 的 集合 。 


我 们 可 以 机 械 地 构造 出 和 一 个 不 确定 有 穷 自动 机 (NFA) 识别 同样 
语言 的 文法 。 上 面 的 文法 是 使 用 下 面 的 构造 方法 ， 根 据 图 3-24 中 的 NFA 


构造 得 到 的 。 


1) 对 于 NFA 的 每 个 状态 i， 创 建 一 个 非 终 结 符号 Ai。 





2) 如 果 状 态 i 有 一 个 在 输入 a 上 到 达 状态 j 的 转换 ， 则 加 入 产生 式 
Ai-aAj。 如 果 状 态 i 在 输入 E 上 到 达 状态 j， 则 加 入 产生 式 Ai Ai。 


3) 如 果 i 是 一 个 接受 状态 ， 则 加 入 产生 式 A; 一 。 
4) 如 果 i 是 自动 机 的 开始 状态 ， 令 Aj 为 所 得 文法 的 开始 符号 。 


另 一 方面 ， 语 言 L={farbn |n>1}〈 即 由 同样 数量 的 a 和 b 组 成 的 串 的 集 
合 ) 是 一 个 可 以 用 文法 描述 但 不 能 用 正则 表达 陈 描述 的 语言 的 原型 例 
子 。 下 面 用 反 证 法 来 说 明 这 一 点 。 假 设 L 是 用 茶 个 正则 表达 式 定义 的 语 
言 。 我 们 可 以 构造 一 个 具有 有 穷 多 个 状态 “比如 说 k 个 状态 ) 的 DFA D 
来 接受 L。 因 为 D 只 有 k 个 状态 ， 对 于 一 个 以 多 于 k 个 a 开 头 的 输入 ，D 一 
定 会 进入 茶 个 状态 两 次 ， 假 设 这 个 状态 是 si， 如 图 4-6 所 示 。 假 设 从 si 返 
回 到 其 自身 的 路 径 的 标号 序列 是 a:。 因 为 ab' 在 这 个 语言 中 ， 因 此 必然 
存在 一 条 标号 为 b 从 si 到 某 个 接受 状态 { 的 路 径 。 但 是 ， 一 定 还 存在 一 条 
从 开始 状态 so 出 发 ， 经 过 si 最 后 到 达 {f 的 路 径 ， 它 的 标号 序列 为 ab ， 如 
图 4-6 所 示 。 因 此 ，D 也 接受 aib,， 但 aib :这 个 串 不 在 语言 L 中 ， 这 和 L 是 D 
所 接受 的 语言 这 个 假设 矛盾 。 











标号 为 a 的 路 径 


© 标号 为 a 的 路 径 Ye 标号 为 b 的 路 径 D 


图 4-6 接受 aibi 和 ajbi 的 DFA D 


我 们 通俗 地 说 “有 穷 目 动机 不 能 计数 ”"， 这 意味 着 有 穷 自动 机 不 能 接 
受 像 {anbnln>1} 这 样 的 语言 ， 因 为 它 不 能 记录 下 在 它 看 到 第 一 个 b 之 前 读 
入 的 a 的 个 数 。 类 似 地 ,“ 一 个 文法 可 以 对 两 个 个 体 进 行 计 数 ， 但 是 无 法 
对 三 个 个 体 计数 ”"， 我 们 在 4.3.5 市 中 考虑 非 上 下 文 无 关 的 语言 构造 时 将 


介绍 这 一 点 O 








4.2.8 4.2 节 的 练习 





练习 4,2.1: 考虑 上 下 文 无 天 文革: 
S~SS+|SS*la 
以 及 串 aata*。 
给 出 这 个 串 的 一 个 最 左 推 导 。 
2) 给 出 这 个 串 的 一 个 最 右 推导 。 
3) 给 出 这 个 串 的 一 棵 语法 分 析 树 。 
! 4) 这 个 文法 是 否 为 二 义 性 的 ? 证 明 你 的 回答 。 
! 5) 描述 这 个 文法 生成 的 语言 。 
练习 4.2.2: 对 下 列 的 每 一 对 文法 和 串 重复 练习 4.2.1。 


1) S~“0S1101 和 串 000111。 


WA 


1 


2) S~+SS|l*SS|a 和 溃 +*aaa。 

! 3) SS (S) S|E 和 串 (0Q0)。 

! 4) SS+S|SS| (S) |1S*|a 和 串 (ata) *a。 

1 5) Ss (LY [a RL=sL SI1ST 和 UB CC (ns a) s ds ‘(AY Ys 
!16)S-。aSbS|bSaS|€ 和 串 aabbab， 

! 7) 下 面 的 布尔 表达 式 对 应 的 文法 : 

bexpr — bexpr or bterm | bterm 


bterm — bterm and bfactor | bfactor 


bfactor ~ not bfactor | (bexpr) | true | false 
练习 4.2.3: 为 下 面 的 语言 设计 文法 : 
1) 所 有 由 0 和 1 组 成 的 并 且 每 个 0 之 后 都 至 少 跟 独 一 个 1 的 串 的 集 


人 
Do 


! 2) 所 有 由 0 和 1 组 成 的 回 文 (palindrome) 的 集合 ， 也 就 是 从 前 面 
和 从 后 面 读 结果 都 相同 的 串 的 集合 。 


! 3) 所 有 由 0 和 1 组 成 的 具有 相同 多 个 0 和 1 的 串 的 集合 。 
! ! 4) 所 有 由 0 和 1 组 成 的 并 且 0 的 个 数 和 1 的 个 数 不 同 的 串 的 集 


人 

! 5) 所 有 由 0 和 1 组 成 的 且 其 中 不 包含 子囊 011 的 串 的 集合 。 

! ! 6) 所 有 由 0 和 1 组 成 的 形 如 xy 的 串 的 集合 ， 其 中 xzxy 且 x 和 y 等 
长 。 


! 练习 4.2.4: 有 一 个 常用 的 扩展 的 文法 表示 方法 。 在 这 个 表示 方法 
中 ， 产 生 式 体 中 的 方 括号 和 花 括号 是 元 符号 (如 一 或 |) ， 且 具有 如 下 


1) 一 个 或 多 个 文法 符号 两 边 的 方 括号 表示 这 些 构造 是 可 选 的 。 因 
此 ， 产 生 式 A X [Yj]」Z 和 两 个 产生 式 A ,XYZ 及 A -XZ 具有 相同 的 效 
果 。 


2) 一 个 或 多 个 文法 符号 两 边 的 花 括 号 表示 这 些 符 号 可 以 重复 任意 
多 次 (包括 零 次 ) 。 因 此 ，A_-X{YZ}+ 和 如 下 的 无 穷 产 生 式 序 列 具 有 相 
同 的 效果 : A 多，A ,XYZ，A XYZYZ，... 等 等 。 


证 明 这 两 个 扩展 并 没有 增加 文法 的 功能 。 也 就 是 说 ， 由 带 有 这 些 扩展 表 
示 的 文法 生成 的 任何 语言 都 可 以 由 一 个 不 带 扩展 表示 的 文法 生成 。 


练习 4.2.5: 使 用 练习 4.2.4 中 描述 的 括号 表示 法 来 简化 如 下 的 关于 语 
句 块 和 条 件 语句 的 文法 。 


simt —> if expr then simt else stmit 
| 1f stimt then simt 
| begin stmtList end 


stmtlist—> stmt; stmtList | stmt 


! 练习 4.2.6: 扩展 练习 4.2.4 的 思想 ， 使 得 产生 式 体 中 可 以 出 现 文法 
符号 的 任意 正则 表达 式 。 证 明 这 个 扩展 并 没有 使 得 文法 可 以 定义 任何 新 
的 语言 。 

X (终结 符号 或 非 终结 符号 ) 就 被 称 为 无 用 的 (useless) 。 也 就 是 说 
X 不 可 能 出 现在 任何 句子 的 推导 过 程 中 。 


人 
工 No 


2) 将 你 的 算法 应 用 于 以 下 文法 : 


S .01A 





A—AB 
B—1 


练习 4.2.8: 图 4-7 中 的 文法 可 生成 单个 数值 标识 符 的 声明 ， 这 些 声 
明 包含 四 种 不 同 的 、 相 互 独立 的 数字 性 质 。 


stmt —» declare id optionList 
optionList — optionList option | 6 

option —» mode | scale | precision | base 
mode — real | complex 

scale —» fixed | floating 

precision 一 single | double 

base —» binary | decimal 








图 4-7 多 属性 声明 的 文法 


1) 扩展 图 4-7 中 的 文法 ， 使 得 它 可 以 允许 n 种 选项 A;， 其 中 n 是 一 个 
回 定 的 数 ，i=1，2，...，n。 选 项 Aj; 的 取 值 可 以 是 a 或 b;。 你 的 文法 只 能 
使 用 O (n) 个 文法 符号 ， 并 且 产 生 式 的 总 长 度 也 必须 是 O Cn) 的 。 


图 4-7 中 的 文法 和 它 在 1 中 的 扩展 支持 互相 矛盾 或 见 余 的 声 
明 ， [: 


declare foo real fixed real floating 


我 们 可 以 要 求 这 个 语言 的 语法 禁止 这 种 声明 。 也 就 是 说 ， 由 这 个 文 
法 生成 的 每 个 声明 中 ，n 种 选项 中 的 每 一 项 都 有 且 只 有 一 个 取 值 。 如 果 
我 们 这 样 做 ， 那 么 对 于 任意 给 定 的 n 值 ， 合 法 声明 的 个 数 是 有 穷 的 。 
此 和 任何 有 穷 语言 一 样 ， 合 法 声明 组 成 的 语言 有 一 个 文法 (同时 也 有 一 
个 正则 表达 式 ) 。 最 显而易见 的 文法 是 这 样 的 : 文法 的 开始 符号 对 每 个 
合法 声明 都 有 一 个 产生 式 ， 这 样 共 有 nl! 个 产生 式 。 该 文法 的 产生 式 的 
总 长 度 是 O (nxn! ) 。 你 必须 做 得 更 好 : 给 出 一 个 产生 式 总 长 度 为 
O (Cn2n) 的 文法 。 

! ! 3) 说 明 对 于 任何 满足 2 中 的 要 求 的 文法 ， 其 产生 式 的 总 长 度 至 


三 | 
少 是 2n。 


4) 我 们 可 以 通过 程序 设计 语言 的 语法 来 保证 声明 中 的 选项 无 元 余 
性 、 无 矛盾 。 对 于 这 个 方法 的 可 行 性 ， 本 题 3 的 结论 说 明了 什么 问题 ? 




















4.3” ”设计 文法 


文法 能 够 描述 程序 设计 语言 的 大 部 分 (但 不 是 全 部 ) 语法 。 比 如 ， 
在 程序 中 标识 符 必须 先 声 明 后 使 用 ， 但 是 这 个 要 求 不 能 通过 一 个 上 下 文 
无 关 文 法 来 描述 。 因 此 ， 一 个 语法 分 析 虽 接受 的 词法 单元 序列 构成 了 程 
序 设 计 语言 的 超 集 ， 编译 器 的 后 续 步 又 必须 对 语法 分 析 强 的 输出 进行 分 
析 ， 以 保证 源 程 序 遵 守 那 些 没有 被 语法 分 析 占 检查 的 规则 。 


本 节 将 先 讨论 如 何在 词法 分 析 器 和 语法 分 析 器 之 间 分 配 工作 。 然 后 
考虑 儿 个 用 来 使 文法 更 适 于 语法 分 析 的 转换 方法 。 其 中 的 一 个 技术 可 以 
消除 文法 中 的 二 义 性 ， 而 其 他 的 技术 一 一 消除 左 递归 和 提取 左 公 因子 
可 用 于 改写 文法 ， 使 得 这 些 文法 适用 于 目 顶 癌 下 的 语法 分 机。 我 们 
在 本 市 的 最 后 将 考虑 一 些 不 能 使 用 任何 文法 描述 的 程序 设计 语言 构造 。 











4.3.1 词法 分 析 和 语法 分 析 


如 我 们 在 4.2.7 节 看 到 的 ， 任 何 能 够 使 用 正则 表达 式 描 述 的 东西 都 可 
以 使 用 文法 描述 。 因 此 我 们 自然 会 问 :“ 为 什么 使 用 正则 表达 式 来 定义 
一 个 语言 的 词法 语法 ? ”， 理 由 有 多 个 。 

1) 将 一 个 语言 的 语法 结构 分 为 词法 和 非 词法 两 部 分 可 以 很 方便 地 
将 编译 器 前 端 模块 化 ， 将 前 端 分 解 为 两 个 大 小 适中 的 组 件 。 

2) 一 个 语言 的 词法 规则 通常 很 简单 ， 我 们 不 需要 使 用 像 文法 这 样 
的 功能 强大 的 表示 方法 来 描述 这 些 规则 。 

3) 和 文法 相 比 ， 正 则 表达 式 通 常 提供 了 更 加 简洁 且 易 于 理解 的 表 
示 词 法 单元 的 方法 。 

4) 根据 正则 表达 式 自 动 构造 得 到 的 词法 分 析 器 的 效率 要 高 于 根据 
任意 文法 自动 构造 得 到 的 分 析 器 。 


并 不 存在 一 个 严格 的 指导 方针 来 规定 哪些 东西 应 该 放 到 (和 语法 规 




















则 相对 的 ) 词法 规则 中 。 0 术 诸 如 标识 人 符 、 和 常量、 关 
键 字 、 空 日 这 样 的 语言 构造 的 结构 。 男 一 方面 ， 文 法 最 适合 描述 舱 套 结 
构 ， 比 如 对 称 的 括号 对 ， 中 本 的 beginrer end， 相互 对 应 的 if-then-else 等 。 
这 些 散 套 结构 不 能 使 用 正则 表达 式 描述 


4.3.2 ”消除 二 义 性 
有 时， 一 个 二 义 性 文法 可 以 被 改写 为 无 二 义 性 的 文法 。 例 如 ， 我 们 


PO -else” 文 法 中 的 二 义 性 : 


simt — if expr then stmt 
| if expr then simt else stmt (4.14) 


| other 


这 里 “other 表示 任何 其 他 语句 。 根 据 这 个 文法 ， 下 面 的 复合 条 件 语 





if E; then Si else if E, then S, else 93 


的 语法 分 析 树 如 图 4-8 所 示 出 。 文 法 (4.14) 是 二 义 性 的 ， 因 为 串 


if Ej then if E, then S1 else S, (4.15) 


if erpr then stmt else stmt 


-~ MA SS 


erpr then stmt else stmt 
E>» 52 93 
图 4-8 一 个 条 件 语句 的 语法 分 析 树 


具有 图 4-9 所 示 的 两 株 语 法 分 析 树 。 


A ae 


then stmt f 人 then stmt else 


if expr i erp Stmt 
五 1 Ei 9> 
f expr stmt if expr then stmt 
EN 
五 2 


then stmt else 








Si S52 五 2 91 


图 4-9 一 个 二 义 性 句子 的 两 颗 语 法 分 析 树 


在 所 有 包含 这 种 形式 的 条 件 语 句 的 程序 设计 语言 中 ， 总 是 会 选择 第 
一 柠 语 法 分 析 树 。 通 用 的 规则 是 “每 个 else 和 最 近 的 尚未 匹配 的 then 匹 
配 。” 思 从 理论 上 讲 ， 这 个 消除 二 义 性 规则 可 以 用 一 个 文法 直接 表示 ， 
但 是 在 实践 中 很 少 用 产生 式 来 表示 该 规则 。 


我 们 可 以 将 悬空 -else 文 法 (4.14) 改写 成 如 下 的 无 二 义 性 文 
法 。 基 本 思想 是 在 一 个 then 和 一 个 else 之 间 出 现 的 语句 必须 是 “已 匹配 
的 ”。 也 束 是 说 ， 中 间 的 语句 不 能 以 一 个 尚未 匹配 的 《或 者 说 开放 
的 ) then 结 尾 。 一 个 已 匹配 的 语句 要 么 是 一 个 不 包含 开放 语句 的 if-then- 
else 语 句 ， 要 么 是 一 个 非 条 件 语 句 。 因 此 我 们 可 以 使 用 图 4-10 中 的 文 
法 。 这 个 文法 和 悬空 -else 文 法 (4.14) 生成 同样 的 串 集合 ， 但 是 它 只 人 允 
许 对 串 (4.15〉 进行 一 种 语法 分 析 ， 也 就 是 将 每 个 else 和 前 面 最 近 的 尚 
未 匹配 的 then 匹 配 。 

















stmt — matched_stmt 
| open_stmt 
matched_stmt — if expr then matched_stmt else matched_stmt 


| other 
open_stmt if ezpr then stmt 
| if ezpr then matched_stmt else open_stmt 





图 4-10 ”if-then-else 语句 的 无 二 义 性 方法 


4.3.3 左 递归 的 消除 


如 果 一 个 文法 中 有 一 个 非 终 结 符号 A 使 得 对 某 个 串 a 存 在 一 个 推导 
4 之 4aw， 那 么 这 个 文法 就 是 左 递归 的 〈]left recursive) 。 自 顶 向 下 语法 
分 析 方 法 不 能 处 理 左 递归 的 文法 ， 因 此 需要 一 个 转换 方法 来 消除 左 北 
归 。 在 2.4.5 节 中 ， 我 们 讨论 了 立即 左 递 归 ， 即 存在 形 如 A ,Aa 的 产生 式 
的 情况 。 这 里 我 们 研究 一 般 性 的 情形 。 在 2.4.5 节 中 ， 我 们 说 明了 如 何 把 











左 递归 的 产生 式 对 A~Aa|8 蔡 换 为 非 左 递归 的 产生 式 : 
A BA 
A' ~aA'| E 


这 样 的 蔡 换 不 会 改变 可 从 A 推 导 得 到 的 串 的 集合 。 这 个 规则 本 刁 已 经 足 
以 用 来 处 理 很 多 文法 。 


这 里 重复 一 下 非 左 递归 的 表达 式 文法 4.2) : 


E —» TE 





F' ~ +TE'|E 
T ~» FT+ 
T ~» +FTIE 


F » CE) la 





它 是 通过 消除 表达 式 文 法 〈4.1) 中 的 立即 左 递归 而 得 到 的 。 左 递归 的 
产生 式 对 E-“E+T1T 被 替换 为 ETE' 和 E' +TE'|E 。 类 似 地 ，T 和 T' 
的 新 产生 式 也 是 通过 消除 立即 左 递归 而 得 到 的 。 


立即 左 递归 可 以 使 用 下 面 的 技术 消除 ， 该 技术 可 以 处 理 任 意 数 量 的 
A 产 生 式 。 首 先 将 A 的 全 部 产生 式 分 组 如 下 : 








A_Aaqu1Aoa|.…1Aoam|Bi1pB21 .1 


其 中 Bi 者 不 以 A 开 头 。 然 后 ， 将 这 些 A 产 生 式 蔡 换 为 : 





APBA TB2A |... |BnA 
A' -oaA'|caA' |.…|anA' | E 


非 终结 符号 A 生 成 的 串 和 蔡 换 之 前 生成 的 串 一 样 ， 但 不 再 是 左 递归 
的 。 这 个 过 程 消除 了 所 有 和 A 和 A' 的 产生 式 相 关 的 左 递归 《前 提 是 ai 都 





不 是 Ee ) ， 但 是 它 没有 消除 那些 因为 两 步 或 多 步 推导 而 产生 的 左 递归 。 
出 如 ;一 注 展 让 潜 


SAalb 
A->Ac|lSdlEe (4.18) 


因为 S 寺 Aa>Sda， 所 以 非 终 结 符号 S 是 左 递 归 的 ， 但 它 不 是 立即 左 递 归 
的 。 


下 面 的 算法 4.19 系 统 地 消除 了 文法 中 的 左 递归 。 如 果 文 法 中 不 存在 
环 《 即 形 如 A 之 4 的 推导 ) 或 E 产 生 式 〈 即 形 如 A~ E 的 产生 式 ) ， 就 
保证 能 够 消除 左 人 递归 。 环 和 EE 产生 式 都 可 以 从 文法 中 系统 地 消除 〈( 见 练 
习 4.4.6 和 练习 4.4.7) 。 


消除 左 递归 。 
输入 没有 环 或 e 产 生 式 的 文法 G。 
输出 ， 一 个 等 价 的 无 左 递归 文法 。 


方法 : 对 G 应 用 图 4-11 中 的 算法 。 请 注意 ， 得 到 的 非 左 递归 文法 可 
能 具有 E 产生 式 。 


图 4-11 中 的 过 程 的 工作 原理 如 下 。 在 二 1 的 第 一 次 迭代 中 ， 和 第 2 一 7 行 
的 外 层 循环 消除 了 Al 产 生 式 之 间 的 所 有 立即 左 递归 。 因 此 ， 余 下 的 所 有 
形 如 Ai Aja 的 产生 式 都 一 定 满足 1l>1。 在 外 层 循环 的 第 i-1 次 迭代 之 后 ， 
所 有 的 非 终 结 符号 A 〈(k<i) 都 被 “清洗 ”过 了 。 也 就 是 说 ， 任 何 产 生 式 
A -= Aia 痢 必然 满足 1>k。 结 果 ， 在 第 i 次 迭代 中 ， 第 3~5 行 的 内 层 循环 不 
断 提 高 所 有 形 如 A; Aa 的 产生 式 中 m 的 下 界 ， 直 到 m>i 成 立 为 止 。 然 
后 ， 第 6 行 消除 了 Ai 产生 式 中 的 立即 左 递归 ， 保 证 m>i 成 立 。 

















) “按照 某 个 顺序 将 非 终结 符号 排序 为 A1, 42,……. ,An. 

) ”for (从 1 到 n 的 每 个 i) { 

) for (从 1 到 i 一 1 的 每 个 7 了) { 

) 将 每 个 形 如 Ai 一 4j7 的 产生 式 替换 为 产生 式 组 4; 一 617 | 627 | … | 647Y， 
其 中 Aj = 01 | 02 | 人 | Ok 是 所 有 的 4A; 产生 式 


5 } 
6) 消除 4; 产生 式 之 间 的 立即 左 递 归 
7) } 








图 4-11 消除 文法 中 的 左 递归 的 算法 
我 们 将 算法 4.19 应 用 于 文法 〈4.18) 。 从 技术 上 讲 ， 因 为 该 算 
半 有 产生 式 ， 所 以 这 个 算法 不 一 定 能 得 到 正确 结果 。 但 在 这 个 例子 
中 ， 最 终 会 证 明 产 生 式 A -, E 是 无 害 的 。 

我 们 将 非 终 结 符号 排序 为 S，A。 在 S 产 生 式 之 间 没 有 立即 左 递归 ， 
因此 在 i=1 的 外 层 循环 中 不 进行 任何 处 理 。 当 i=2 时 ， 我 们 蔡 换 A -, Sd 中 
的 S， 得 到 如 下 的 A 产 生 式 。 

A,Ac|lAad|bd|le 
消除 这 些 A 产 生 式 之 间 的 立即 左 递归 ， 得 到 如 下 的 文法 : 


S—»-Aalb 








AbdA'|A 


A'->cA'ladA'| E 
34 术 取 下 公国 于 


提取 左 公 因子 是 一 种 文法 转换 方法 ， 它 可 以 产生 适用 于 预测 分 析 技 
术 或 自 项 向 下 分 析 技 术 的 文法 。 当 不 清楚 应 该 在 两 个 A 产生 式 中 如 何 选 
择 时 ， 我 们 可 以 通过 改写 产生 式 来 推 后 这 个 决定 ， 等 我 们 读 入 了 足够 多 
的 输入 ， 获 得 足够 信息 后 再 做 出 正确 选择 。 


比如 ， 如 果 我 们 有 两 个 产生 式 


simt —>1f expr then stmt else simit 


| if expr then simit 


在 看 到 输入 站 的 时 候 ， 我 们 不 能 立刻 指出 应 该 选择 哪个 产生 式 来 展开 
stmt。 一 般 来 说 ， 如 果 A -~ api | ap 是 两 个 A 产 生 式 ， 并 且 输 入 的 开头 是 
从 a 推 导 得 到 的 一 个 非 空 溃 ， 那 么 我 们 就 不 知道 应 该 将 A 展 开 为 api 还 是 
op2。 然 而 ， 我 们 可 以 将 A 展 开 为 acA'， 从 而 将 做 出 决定 的 时 间 往 后 延 。 
在 读 入 了 从 a 推导 得 到 的 输入 前 级 之 后 ， 我 们 再 决定 将 A' 展 开 为 B1 或 
也。 也 惑 是 说 ， 经 过 提取 左 公 因 了 于 ， 原 来 的 产生 式 变 成 了 








A—aA' 
A 一 pp 
医 要 到 对 一 个 文法 提取 左 公 因子 。 
输入 : 文法 G。 
输出 ， 一 个 等 价 的 提取 了 左 公 因子 的 文法 。 
方法 :对 于 每 个 非 终 结 符号 A， 找 出 它 的 两 个 或 多 个 选项 之 间 的 最 
长 公共 前 缀 aq。 如 果 aze ， 即 存在 一 个 非 平凡 的 公共 前 级 ， 那 么 将 所 有 
A 产生 式 A -aBi |apB2 |…|apn | Y， 蔡 换 为 
A_-aA' ly 
A' 一 Bi |pB21.| pn 
其 中 ，y 表 示 所 有 不 以 a 开 头 的 产生 式 体 ，A' 是 一 个 新 的 非 终结 符号 。 不 
断 应 用 这 个 转换 ， 直 到 每 个 非 终结 符号 的 任意 两 个 产生 式 体 都 没有 公共 
前 级 为 止 。 
了 研 较 下 面 的 文法 抽象 表达 了 “及 空 -else” 问 题 : 


S,iEtS|iEtSeS|a (4.23) 


一 b 


这 里 i、t 和 e 代 表 证 、then 和 else; E 和 S 表 示 “ 条 件 表达 式 ” 和 “语句 ”。 提 取 
左 公 因子 后 ， 这 个 文法 变 为 : 


S,iEtSS’'|a 





S'seS|E (4.24) 
E_b 


这 样 ， 我 们 可 以 在 输入 为 时 将 S 展 开 为 EtSS'， 并 在 处 理 让 tS 之 后 才 决 定 
将 S' 展 开 为 es 还 是 e 。 当 然 ， 上 面 的 两 个 文法 都 是 二 义 性 的 ， 当 输入 为 
e 时 不 能 够 确定 应 该 选择 S' 的 哪个 产生 式 。 例 子 4.33 将 讨论 一 个 可 以 摆脱 
这 个 困境 的 方法 。 


4.3.5 非 上 下文 无 天 语言 时 构 道 


在 常见 的 程序 设计 语言 中 ， 可 以 找到 少量 不 能 仅 用 文法 描述 的 语法 
构造 。 这 里 ， 我 们 考虑 其 中 的 两 种 构造 ， 并 使 用 简单 的 抽象 语言 来 说 明 
其 困难 之 处 。 


团 开 这 个 例子 中 的 语言 抽象 地 表示 了 检查 标识 符 在 程序 中 先 声明 后 
问题 。 这 个 语言 由 形 如 wecw 的 串 组 成 ， 其 中 第 一 个 w 表 示 某 个 标 
识 符 w 的 声明 ，c 表 示 中 间 的 程序 片段 ， 第 二 个 w 表 示 对 这 个 标识 符 的 使 














班 


这 个 抽象 语言 是 Lj={wcw | w 在 (alb)“ 中 }。Ll 包 含 了 所 有 符合 以 
下 要 求 的 字 ， 字 中 包含 两 个 相同 的 由 a，b 所 组 成 串 ， 且 中 间 以 c 隔 开 ， 
比如 aabcaab。 这 个 Lj 不 是 上 下 文 无 关 的 ， 虽 然 证 明 这 一 点 已 经 超出 了 
本 书 的 范围 。L1 的 非 上 下 文 无 关 性 表明 了 像 C 或 Java 这 样 的 语言 不 是 上 
下 文 无 关 的 ， 因 为 这 些 语言 都 要 求 标识 符 要 先 声 明 后 使 用 ， 并 且 支 持 任 
意 长 度 的 标识 符 。 


出 于 这 个 原因 ，C 或 者 Java 的 文法 不 区 分 由 不 同 字 符 串 组 成 的 标识 
符 。 所 有 的 标识 符 在 文法 中 都 被 表示 为 像 训 这 样 的 词法 单元 。 在 这 些 语 














言 的 编译 需 中 ， 标 识 符 是 人 否 先 声 明 后 使 用 是 在 语义 分 析 阶 段 检查 的 。 


人 这 个 例子 中 的 非 上 下 文 无 关 语言 抽象 地 表示 了 参数 个 数 检查 的 
问题 。 它 检查 一 个 函数 声明 中 的 形式 参数 个 数 是 否 等 于 该 函数 的 某 次 使 
用 中 的 实在 参数 个 数 。 这 个 语言 由 形 如 anbmcndm 的 串 组 成 〈《 记 住 ，an 表 
示 n 个 a) 。 这 里 ，a? 和 bm 可 以 表示 两 个 分 别 有 n 和 m 个 参数 的 函数 声明 的 
0 TR 





这 个 抽象 语言 是 L>={anbmcndm |n>1 且 m>z1}。 也 就 是 说 ，L) 包 含 的 
串 都 在 正则 表达 式 abc d 所 生成 的 语言 中 ， 并 且 a 和 c 的 个 数 相 同 ，b 和 
d 的 个 数 相 同 。 这 个 语言 不 是 上 下 文 无 关 的 。 

同样 ， 函 数 声 明和 使 用 的 常用 语法 本 身 并 不 考虑 参数 的 个 数 。 比 
如 ， 一 个 类 C 语 言 中 的 函数 调用 可 能 被 描述 为 








stmt 一 id (expr_list) 
expr_list 一 > expr_list, expr 


| expr 





其 中 expr 男 有 适当 的 产生 式 。 检 查 一 次 调用 中 的 参数 个 数 是 否 正确 通常 
古 在 语义 分 析 阶 段 完 成 的 。 


4.3.6 4.3 节 的 练习 





练习 4.3.1: 下 面 是 一 个 只 包含 符号 a 和 b 的 正则 表达 式 的 文法 。 它 使 
用 + 丛 代 表示 并 运算 的 字符 |， 以 避免 和 文法 中 作为 元 符号 使 用 的 竖 线 相 
混 消 : 


rexpr — rexpr + rterm | rterm 


rterm — rterm rfactor | rfactor 


rfactor 一 rfactor * | rprimary 
rprimary—>alb 
1) 对 这 个 文法 提取 左 公 因子 。 


Re 提取 左 公 因子 的 变换 能 使 这 个 文法 适用 于 自 项 向 下 的 语法 分 析 
.mg? 


3) 提取 左 公 因 子 之 后 ， 从 原文 法 中 消除 左 递归 。 
4) 得 到 的 文法 适用 于 自 顶 向 下 的 语法 分 析 吗 ? 
练习 4.3.2: 对 下 面 的 文法 重复 练习 4.3.1: 

练习 4.2.1 的 文法 。 

27 六 习 42.2 C1) 的 文法 。 

3) 詹 习 4.2.2 3》 的 文法 。 

4 缠 习 小 225) 的 广 访 

5) 绒 习 4.2.2 《7》 的 文法 。 


! 练习 4.3.3: 下 面 文法 的 目的 是 消除 4.3.2 节 中 讨论 的 “悬空 -else 二 
义 性 ”， 


Wa 


1 


simt —>if expr then simt 
| matchedSimt 
matchedStmt—>if expr then matchedStmt else simt 


| other 


说 明 这 个 文法 仍然 是 二 义 性 的 。 


4.4 目 顶 同 下 的 语法 分 析 


目 顶 回 下 语法 分 析 可 以 被 看 作 古 为 输入 串 构 造 语法 分 析 树 的 问题 ， 
它 从 语法 分 析 树 的 根 结 点 开始 ， 按 照 先 根 次 序 〈 如 2.3.4 节 中 所 讨论 的 ， 
深度 优先 地 ) 创建 这 标语 法 分 析 树 的 各 个 结 点 。 自 项 加 下 语法 分 析 也 可 
以 被 看 作 寻 找 输入 串 的 最 左 推导 的 过 程 。 


图 4-12 中 对 应 于 输入 id + id * id 的 语法 分 析 树 序列 是 一 个 根据 
文法 〈4.2) 进行 的 最 左 推 导 序 列 。 这 里 重复 一 下 这 个 文法 : 


Eo>TE 














F' ,+TE'|E 

TFT (4.28) 

T',*FT|E 

F», (E) |id 

该 语法 分 析 树 序列 对 应 于 这 个 输入 的 一 个 最 左 推导 。 


在 一 个 目 顶 同 下 语法 分 析 的 每 一 步 中 ， 关 键 问题 是 确定 对 一 个 非 终 
结 符号 (比如 A》〉 应 用 哪个 产生 式 。 一 旦 选择 了 某 个 A 产生 式 ， 语 法 分 
析 过 程 的 其 余部 分 负责 将 相应 产生 式 体 中 的 终结 符号 和 输入 相 匹 配 。 


本 节 首 先 给 出 被 称 为 递归 下 降 语 法 分 析 的 自 顶 向 下 语法 分 析 的 通用 
形式 ， 这 种 方法 可 能 需要 进行 回溯 ， 以 找到 要 应 用 的 正确 A 产 生 陈 。 
2.4.2 节 介绍 的 预测 分 析 技 术 是 递归 下 降 分 析 技 术 的 一 个 特例 ， 它 不 需要 
进行 回 斋 。 预 测 分 析 技 术 通 过 在 输入 中 同 前 看 固定 多 个 符号 来 选择 正确 
的 A 产 生 式 。 通 闻 情 况 下 我 们 只 需要 回 前 看 一 个 符号 〈 即 只 看 下 一 个 答 
入 符号 ) 。 

比如 ， 考 碟 图 4-12 中 的 目 顶 回 下 语法 分 析 过 程 ， 它 构造 出 了 一 标语 


法 分 析 树 ， 其 中 有 两 个 标号 为 E 的 结 点 。 在 《按照 前 序 过 历次 序 的 ) 第 
一 个 E' 结 点 上 选择 的 产生 式 是 E' ~+TE'; 在 第 二 个 E' 结 点 上 选择 的 产生 








式 和 是 E-~ E。 预 测 分 析 露 通过 查看 下 一 个 输入 符号 就 可 以 在 两 个 E' 产 生 
式 中 选择 正确 的 产生 式 。 


bE = Eb 2 E = Eb 一 E 这 bE 
im /AN lm /\ im NN im A lim / 天 
TT EB T FE E' yh E' y 
A 六 人 ] | | 
二 
i id ke id te 
a => Eb 
Im / 汐 lim p4 Im 用 SS 
1 5 7 T E' 
PA 党 -| XN jl FN 
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1 4 jl pa | | # | 
id ee gk id € F ‘0 id F ′ < 
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图 4-12 id+id#kid 的 自 顶 向 下 分 析 


对 于 有 些 文法 ， 我 们 可 以 构造 出 向 前 看 k 个 输入 符号 的 预测 分 析 
器 ， 这 一 类 文法 有 时 也 称 为 LL (k) 文法 类 。 我 们 在 4.4.3 节 中 将 讨论 
LL (1) 文法 类 ， 但 是 在 介绍 预备 知识 的 4.4.2 节 中 将 介绍 一 些 计 算 
FIRST 和 FOLLOW 集合 的 方法 。 根 据 一 个 文法 的 FIRST 和 FOLLOW 和 集 
合 ， 我 们 将 构造 出 “预测 分 析 表 ”， 它 说 明了 如 何在 自 顶 向 下 语法 分 析 过 
程 中 选择 产生 式 。 这 些 集合 也 可 以 用 于 自 底 向 上 语法 分 析 。 

在 4.4.4 节 中 ， 我 们 给 出 了 一 个 非 递 归 的 语法 分 析 算 法 ， 它 显 式 地 维 


护 了 一 个 栈 ， 而 不 是 通过 递归 调用 隐 式 地 维护 一 个 栈 。 最 后 ， 我 们 将 在 
4.4.5 节 中 讨论 目 顶 问 下 语法 分 析 过 程 中 的 错误 恢复 问题 。 


4.4.1 递归 下 降 的 语法 分 析 


一 个 递归 下 降 语法 分 析 程 序 由 一 组 过 程 组 成 ， 每 个 非 终结 符号 有 一 
个 对 应 的 过 程 。 程 序 的 执行 从 开始 符号 对 应 的 过 程 开始 ， 如 有 果 这 个 过 程 
的 过 程 体 扫描 了 整 个 输入 串 ， 乞 就 停止 执行 并 宣布 语法 分 析 成 功 完 成 。 
图 4-13 显 示 了 对 应 于 茶 个 非 终 结 符 写 的 典型 过 程 的 伪 代 码 。 请 注意 ， 这 
个 伪 代 码 是 不 确定 的 ， 因 为 它 没 有 插 述 如 何在 开始 时 刻 选择 A 产生 式 。 


通用 的 递归 下 降 分 析 技 术 可 能 需要 回溯 。 也 就 是 次 ， 它 可 能 需要 重 
复 扫 描 输 入 。 然 而 ， 在 对 程序 设计 语言 的 构造 进行 语法 分 析 时 很 少 需要 
回溯 ， 因 此 需要 回调 的 语法 分 析 霹 并 不 币 见 。 即 使 在 目 然 语言 语法 分 析 
这 样 的 场合 ， 回 调 也 不 是 很 高 效 ， 因 此 人 们 更 加 倾 癌 于 基于 表格 的 方 
法 ， 比 如 练习 4.4.9 中 的 动态 程序 规划 算法 或 者 Earley 方 法 (参见 参考 文 
献 ) 。 


要 文 持 回 溯 ， 就 需要 修改 图 4-13 的 代码 。 首 先 ， 因 为 我 们 不 能 在 第 
1 行 选 定 唯一 的 A 产 生 式 ， 我 们 必须 按照 某 个 顺序 逐个 党 试 这 些 产 生 
式 。 那 么 ， 第 7 行 上 的 失败 并 不 意味 着 最 终 失 败 ， 而 仅仅 是 建议 我 们 返 
回 到 第 1 行 并 尝试 另 一 个 A 产 生 式 。 只 有 当 再 也 没有 A 产 生 式 可 党 试 时 ， 
我 们 才 会 宣称 找到 了 一 个 输入 错误 。 为 了 尝试 男 一 个 A 产生 式 ， 我 们 需 
要 把 输入 指针 重新 设置 到 我 们 第 一 次 到 达 第 1 行 时 的 位 置 。 因 此 ， 需 要 
一 个 局 部 变量 来 保存 这 个 输入 指针 ， 以 供 将 来 回溯 时 使 用 。 























void A() { 
选择 一 个 4 产生 式 ,4 一 XXX 有; 
for ( = LG ) 4 
if ( Xi 是 一 个 非 终 结 符号 ) 
调用 过 程 Xi(O; 
else if ( X; 等 于 当前 的 输入 符号 a ) 
读 入 下 一 个 输入 符号 ; 
else /* 发 生 了 一 个 错误 */; 
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2) 
3) 
4 
5) 
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图 4-13 在 自 顶 向 下 语法 分 析 器 中 一 个 非 终结 符号 对 应 的 典型 过 程 


考虑 文法 


S_ ,cAd 
A—sabla 


在 目 顶 问 下 地 构造 输入 串 w=cad 的 语法 分 析 树 时 ， 初 始 的 语法 分 析 
树 只 包含 一 个 标号 为 $ 的 结 氮 ， 输 入 指针 指 网 c， 即 w 的 第 一 个 符号 。S 
只 有 一 个 产生 式 ， 因 此 我 们 用 它 来 展开 S， 得 到 图 4-14a 中 的 树 。 最 左边 
的 叶子 结 点 的 标号 为 c， 它 和 输入 w 的 第 一 个 符号 匹配 ， 因 此 我 们 将 输入 
指针 推进 到 a， 即 w 的 第 二 个 符号 ， 并 考虑 下 一 个 标号 为 A 的 叶子 结 点 。 


hy A 
pe | 


Q 





a) b) C) 
图 4-14 ”一 个 自 顶 向 下 语法 分 析 过 程 的 步骤 


现在 我 们 使 用 第 一 个 A 产 生 式 A -> ab 来 展开 A， 得 到 图 4-14b 所 示 的 
树 。 第 二 个 输入 符号 a 得 到 匹配 ， 因 此 我 们 将 输入 指针 推进 到 d， 即 第 三 
个 输入 符号 ， 并 将 d 和 下 一 个 叶子 结 点 〈 标 号 为 b) 比较 。 因 为 b 和 d 不 匹 
配 ， 我 们 报告 失败 ， 并 回 到 A， 查 看 是 否 还 有 尚未 尝试 过 、 但 有 可 能 匹 
配 的 其 他 A 产生 式 。 


在 回 到 A 时 ， 我 们 必须 把 输入 指针 重新 设置 到 位 置 2， 即 我 们 第 一 
次 尝试 展开 A 时 该 指针 指向 的 位 置 。 这 意味 着 A 的 过 程 必须 将 输入 指针 
存放 在 一 个 局 部 变量 中 。 


A 的 第 二 个 选项 产生 了 图 4-11c 所 示 的 树 。 叶 子 结 皮 a 和 w 的 第 二 个 符 
号 匹配 ， 叶 子 结 点 d 和 第 三 个 符号 相 匹 配 。 因 为 我 们 已 经 产生 了 一 棵 w 
的 语法 分 析 树 ， 所 以 我 们 停止 分 析 并 宣称 已 成 功 完 成 了 语法 分 析 。 


一 个 左 递归 的 文法 会 使 它 的 递归 下 降 语 法 分 析 器 进入 一 个 无 限 循 
环 。 即 使 是 带 回 调 的 语法 分 析 器 也 是 如 此 。 也 就 是 说 ， 当 我 们 试 网 展开 
0 

A。 


4.4.2 ”FIRST 和 FOLLOW 


自 顶 向 下 和 自 底 向 上 语法 分 析 器 的 构造 可 以 使 用 和 文法 G 相 关 的 两 
个 函数 FIRST 和 FOLLOW 来 实现 。 在 自 顶 向 下 语法 分 析 过 程 中 ，FIRST 
和 FOLLOW 使 得 我 们 可 以 根据 下 一 个 输入 符号 来 选择 应 用 哪个 产生 式 。 
在 恐慌 模式 的 错误 恢复 中 ， 由 FOLLOW 产生 的 词法 单元 集合 可 以 作为 同 
步 词 法 单元 。 


FIRST (a) 被 定义 为 可 从 a 推导 得 到 的 串 的 首 符 号 的 集合 ， 其 中 a 
是 任意 的 文法 符号 串 。 如 果 w 过 es ， 那 么 EE 也 在 FIRST (a) 中 。 比 
如 在 图 4-15 中 ，4 己 cy， 因 此 c 在 FIRST (A) 中 。 


5 
> ee 
/和 人、 
C 
图 4-15 终结 符号 c 在 FIRST (A) 中 且 a 在 FOLLOW (A) 中 


我 们 先 简单 介绍 一 下 如 何在 预测 分 析 中 使 用 FIRST。 考 虑 两 个 A 产 
后 式 A ,a|B， 其 中 FIRST (aq) 和 FIRST (B) 是 不 相交 的 集合 。 那 么 我 
们 只 需要 查看 下 一 个 输入 符号 a， 就 可 以 在 这 两 个 A 产 生 式 中 进行 选择 。 
因为 a 只 能 出 现在 FIRST (a) 或 FIRST (B) 中 ， 但 不 能 同时 出 现在 两 个 
集合 中 。 比 如 ， 如 果 a 在 FIRST (B) 中 ， 就 选择 A“B。 在 4.4.3 中 定义 
LL (1) 文法 时 将 深入 研究 这 个 思想 。 


对 于 非 终 结 符号 A，FOLLOW (A) 被 定义 为 可 能 在 某 些 句 型 中 紧 
跟 在 A 右 边 的 终结 符号 的 集合 。 也 就 是 说 ， 如 果 存 在 如 图 4-15 所 示 形 如 
Sa4a8 的 推导 ， 终 结 符号 a 就 在 FOLLOW (A) 中 ， 其 中 a 和 B 是 文法 
符号 串 。 请 注意 ， 在 这 个 推导 的 某 个 阶段 ，A 和 a 之 间 可 能 存在 一 些 文法 
符号 。 但 如 果 这 样 ， 这 些 符号 会 推导 得 到 EE 并 消失 。 另 外 ， 如 果 人 A 是 某 
些 句 型 的 最 右 符号 ， 那 么 $ 也 在 FOLLOW (A) 中。 回忆 一 下 ，$ 是 一 个 











特殊 的 “结束 标记 符号， 我们 假设 它 不 是 任何 文法 的 符号 。 


计算 各 个 文法 符号 X 的 FIRST (X) 时 ， 不 断 应 用 下 列 规则 ， 直 到 再 
没有 新 的 终结 符号 或 Ee 可 以 被 加 入 到 任何 FIRST 和 集合 中 为 止 。 


1) 如 果 X 是 一 个 终结 符号 ， 那 么 FIRST (X) =X。 


2) 如 果 X 是 一 个 非 终结 符号 ， 且 X 一 YiY>.… 嫩 是 一 个 产生 式 ， 其 
中 kz1， 那 么 如 果 对 于 某 个 i，a 在 FIRST (Y;) 中 有 旦 €E 在 所 有 的 
FIRST (Yj) 、FIRST (Y,) 、...、FIRST (Yi1) 中 ， 就 把 a 加 入 到 
FIRST (X) 中 。 也 就 是 说 ，Y…Y,_, 坊 e。 如 果 对 于 所 有 的 j=1，2， 
…，k， 瑟 在 FIRST(Y;) 中 ， 那 么 将 E 加 入 到 FIRST(X》 中 。 比 如 ， 
FIRST(Y1) 中 的 所 有 符号 一 定 在 FIRST (X) 中 。 如 果 Yi 不 能 推导 出 
eS ， 那 么 我 们 就 不 会 再 向 FIRST(X)〉 中 加 入 任何 符号 ， 但 是 如 果 
Y 态 e ， 那 么 我 们 就 加 上 FIRST(Y,) ， 依 此 类 推 。 











3) 如 果 X ~” EE 是 一 个 产生 式 ， 那 么 将 E 加 入 到 FIRST (X) 中 。 


现在 ,我们 可 以 按照 如 下 方式 计算 任何 串 X1X...Xi 的 FIRST 集 合 。 
向 FIRST (Xi1X,...X,) 加 入 F(X1) 中 所 有 的 非 E 符号。 如 果 E 在 
FIRST(X1) 中 ， 再 加 入 FIRST(X,〉 中 的 所 有 非 € 符 号 ;， 如果 E 在 
FIRST(X1) 和 FIRST (X,) 中 ， 加 入 FIRST (Xs) 中 的 所 有 非 E 符 
号 ， 依 此 类 推 。 最 后 ， 如 果 对 所 有 的 i，E 都 在 FIRST (Xi) 中 ， 那 么 将 
E 加 入 到 FIRST (XjX...X,) 中 。 


计算 所 有 非 终 结 符号 A 的 FOLLOW (A) 集合 时 ， 不 断 应 用 下 面 的 
规则 ， 直 到 再 没有 新 的 终结 符号 可 以 被 加 入 到 任意 FOLLOW 集合 中 为 
止 。 

1) 将 $ 放 到 FOLLOW 〈S) 中 ， 其 中 $ 是 开始 符号 ， 而 $ 是 输入 右 端 
的 结束 标记 。 


2) 如 果 存 在 一 个 产生 式 A aBB， 那 么 FIRST (PB) 中 除 eE 之 外 的 所 
有 符号 都 在 FOLLOW (B) 中 。 


3) 如 果 存 在 一 个 产生 式 A aB， 或 存在 产生 式 A aBB 且 


FIRST (B) 包含 振 ， 那 么 FOLLOW (A) 中 的 所 有 符号 都 在 
FOLLOW (B) 中 。 


再 次 考虑 非 左 递归 的 文法 (4.28) 。 那 么 ; 


1) FIRST (F) =FIRST (T) =FIRST (E) ={ (，id}。 要 知道 为 什 
么 ， 请 注意 EF 的 两 个 产生 式 的 体 以 终结 符号 id 和 左 括号 开头 。T 只 有 一 个 
产生 式 ， 而 该 产生 式 的 体 以 F 开 头 。 又 因为 F 不 能 推导 出 算 ， 所 以 
FIRST (TIT) 必然 和 FIRST (CF) 相同 。 对 于 FIRST (CE) 也 可 以 做 同样 的 
论证 。 


2) FIRST (E') ={+;- Ej}。 理由 是 芒 的 两 个 产生 起 由， 一 个 产生 趟 
的 体 以 终结 符号 + 开头 ， 且 为 一 个 产生 式 的 体 为 eE 。 只 要 一 个 非 终结 符 
写 推导 出 Se， 我 们 束 会 把 Ee 放 到 该 终结 符号 的 FIRST 集 合 中 。 


3) FIRST (T) ={*，E€}。 它 的 论证 过 程 和 FIRST (E') 的 论证 过 
程 类 似 。 


4) FOLLOW (E) =FOLLOW (E') = {) ，$}。 因 为 E 是 开始 符 
号 ，FOLLOW (E) 一 定 包 含 $。 产 生 式 体 (E) 说 明了 右 括号 为 什么 在 
FOLLOW (E) 中。 对 于 E'"， 请 注意 这 个 非 终 结 符号 只 出 现在 E 产 生 式 
的 体 的 尾部 ， 因 此 FOLLOW (E') 必然 和 FOLLOW (CE) 相同 。 











5) FOLLOW (T) =FOLLOW (T') ={+，) ，$}。 请 注意 ，T 在 产 
生 式 体 中 出 现时 只 有 E' 跟 在 后 面 。 因 此 ，FIRST (E') 中 除 eE 之 外 的 所 
有 符号 一 定 都 在 FOLLOW (T) 中 。 这 解释 了 + 出 现在 FOLLOW (T) 中 
的 原因 。 然 而 ， 因 为 FIRST (E') 包含 挟 〈 即 玉 ' 辽 ce) ， 且 E' 就 是 在 E 产 
生 式 的 体 中 跟 在 工 后 面 的 全 部 符号 ， 因 此 FOLLOW (CE) 中 的 所 有 符号 
都 在 FOLLOW (TIT) 中 。 这 解释 了 符号 $ 和 右 括号 出 现在 FOLLOW (T) 
中 的 原因 。 至 于 T'， 因 为 它 只 出 现在 T 产 生 式 的 尾部 ， 因 此 必然 有 
FOLLOW (T') =FOLLOW (T) 。 


6) FOLLOW (F) ={+，*，) ，$}。 论 证 过 程 和 第 5 点 中 对 T 的 论 
证 过 程 类 似 。 


4.4.3 LL (1) 文法 


对 于 称 为 LL〈1) 的 文法 ， 我 们 可 以 构造 出 预测 分 析 器 ， 即 不 需要 
回溯 的 递归 下 降 语法 分 析 器 。LL 〈1) 中 的 第 一 个 所 ?表示 从 左 向 右 扫 
描 输 入 ， 第 二 个 “L” 表 示 产 生 最 左 推导 ， 而 “1” 则 表示 在 每 一 步 中 只 需要 
器 前 看 一 个 输入 符 写 来 决定 语法 分 析 动 作 。 











预测 分 析 强 的 转换 图 


转换 图 有 助 于 将 预测 分 析 嚣 可视化。 比如 ， 图 4-16a 中 显示 了 文 
法 (4.28) 中 非 终 结 符 写 E 和 E' 的 转换 图 。 要 构造 一 个 文法 的 转换 
图 ， 首 先 要 消除 左 递归 ， 然 后 对 文法 提取 左 公 因子 。 然 后 对 每 个 非 终 


友人 大 品 


结 符 号 A: 
1) 创建 一 个 初始 状态 和 一 个 结束 (返回 ) 状态 。 


2) 对 于 每 个 产生 式 A ,XiX.….X,， 创 建 一 个 从 初始 状态 到 结束 
状态 的 路 径 ， 路 径 中 各 条 边 的 标号 为 X/、X2、...、X,。 如 果 A，E， 
那么 这 条 路 径 就 是 一 条 标号 为 E 的 边 。 


预测 分 析 融 的 转换 图 和 词法 分 析 喜 的 转换 图 是 不 同 的 。 分 析 器 的 
转换 图 对 每 个 非 终结 符号 都 有 一 个 图 。 图 中 边 的 标号 可 以 是 词法 单 
元 ， 也 可 以 是 非 终结 符号 。 词 法 单元 上 的 转换 表示 当 该 词法 单元 是 下 
一 个 输入 符号 时 我 们 应 该 执行 这 个 转换 。 非 终结 符号 A 上 的 转换 表示 
对 A 的 过 程 的 一 次 调用 。 


对 于 一 个 LL 〈1) 文法 ， 将 E 边 作为 默认 选择 可 以 解决 是 否 选择 
一 个 Ee 边 的 二 义 性 问题 。 


转换 图 可 以 化 简 ， 前 提 是 各 条 路 径 上 的 文法 符号 序列 必须 保持 不 
变 。 我 们 也 可 以 将 一 条 标号 为 非 终 结 符 号 A 的 边 蔡 换 为 A 的 转换 图 。 
图 4-16a 和 图 4-16b 中 的 转换 图 是 等 价 的 : 如 果 我 们 跟踪 从 E 到 结束 状 
态 的 路 径 ， 并 蔡 换 E'， 那 么 在 这 两 组 图 中 ， 沿 着 这 些 路 径 的 文法 符号 
都 组 成 了 形 如 T+T+...+T 的 串 。 图 4-16b 中 的 图 可 以 从 图 4-16a 通 过 转 
换 而 得 到 。 转 换 的 方法 类 似 于 2.5.4 节 所 述 的 方法 。 在 该 节 中 ， 我 们 使 
用 尾 递 归 消 除 和 过 程 体 蔡 代 的 方法 来 优化 一 个 非 终结 符号 的 相应 过 


程 。 
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， T E 
BE: (3 大 一 ~ 人 一 ~ 一 的 
€ 
a) b) 
图 4-16 文法 4. 28 的 非 终 结 符号 E 和 和 E′ 的 转换 图 








LL (1) 文法 已 经 足以 描述 大 部 分 程序 设计 语言 构造 ， 虽 然 在 为 源 
语言 设计 适当 的 文法 时 需要 多 加 小 心 。 比 如 ， 左 递归 的 文法 和 二 义 性 的 
文法 都 不 可 能 是 LL (1) 的 。 





一 个 文法 G 是 LL (1) 的 ， 当 且 仅 当 G 的 任意 两 个 不 同 的 产生 式 
A -a|B 满 足下 面 的 条 件 : 


1) 不 存在 终结 符号 a 使 得 a 和 PB 都 能 够 推导 出 以 a 开头 的 串 。 
2) a 和 B 中 最 多 只 有 一 个 可 以 推导 出 空 串 。 


3) 如 果 B 夸 e， 那 么 a 不 能 推导 出 任何 以 FOLLOW (A) 中 某 个 终 
结 符 写 开头 的 串 。 类 似 地 ， 如 果 a 己 e， 那 么 p 不 能 推导 出 任何 以 
FOLLOW (CA) 中 某 个 终结 符号 开头 的 串 。 


前 两 个 条 件 等 价 于 说 FIRST (a) 和 FIRST(B) 是 不 相交 的 集合 。 
第 三 个 条 件 等 价 于 说 如 果 E 在 FIRST (B) 中 ， 那 么 FIRST (a) 和 
FOLLOW (A) 是 不 相交 的 集合 ， 并 且 当 EE 在 FIRST (a) 中 时 类 似 结论 
成 立 。 


之 所 以 能 够 为 LL 〈1) 文法 构造 预测 分 析 器 ， 原 因 是 只 需要 检查 当 
前 输入 符号 就 可 以 为 一 个 非 终 结 符 号 选择 正确 的 产生 式 。 因 为 有 关 控 制 
流 的 各 个 语言 构造 带 有 不 同 的 关键 字 ， 它 们 通常 满足 LL (1) 的 约束 。 
比如 ， 如 果 我 们 有 如 下 产生 式 














stmt —f (expr) stmt else stmt 
| While (expr) stmt 
| {stmt_list! 


那么 关键 字 证 、while 和 符号 { 告 诉 我 们 : 如 果 在 输入 中 找到 一 个 语句 ， 
哪个 产生 式 是 唯一 可 能 匹配 成 功 的 。 


接 下 来 给 出 的 算法 把 FIRST 和 FOLLOW 集合 中 的 信息 放 到 一 个 预测 
分 析 表 M [A，a] 中 。 这 是 一 个 二 维 数 组 ， 其 中 A 是 一 个 非 终 结 符号 ， 
a 是 一 个 终结 符号 或 特殊 符号 $， 即 输入 的 结束 标记 。 该 算法 基于 如 下 的 
思想 : 只 有 当下 一 个 输入 符号 a 在 FIRST (a) 中 时 才 选 择 产生 式 A a。 
只 有 当 a=E 时 ， 或 更 加 一 般 化 的 w 之 ce 时 ， 情 况 才 有 些 复杂 。 在 这 种 情 
况 下 ， 如 果 当 前 输入 符号 在 FOLLOW (A) 中 ， 或 者 已 经 到 达 输 入 中 的 
$ 符 号 且 $ 在 FOLLOW (A) 中 ， 那 么 我 们 仍 应 该 选择 A a。 


构造 一 个 预测 分 析 表 。 
答 入 ;文法 G。 
答 出 :预测 分 析 表 M。 
方法 : 对 于 文法 G 的 每 个 产生 式 A a， 进行 如 下 处 理 : 


1) 对 于 FIRST (a) 中 的 每 个 终结 符号 a， 将 A ,a 加 入 到 M LA， 
a 


2) 如 果 E 在 FIRST (qa) 中 ， 那 么 对 于 FOLLOW (A) 中 的 每 个 终 
结 符号 b， 将 A-a 加 入 到 M [A， bj 中。 如 果 E&E 在 FIRST (a) 中 ， 且 
$ 在 FOLLOW (A) 中， 也 将 A a 加 入 到 M [LA，$] 中 。 


在 完成 上 面 的 操作 之 后 ， 如 果 M [A，aj] 中 没有 产生 式 ， 那 么 将 
M [A，aj 设置 为 error 我们 通常 在 表 中 用 一 个 空 条 目 表 示 )。 


对 于 表达 式 文 法 〈4.28) ， 算 法 4.31 生 成 了 图 4-17 中 的 预测 分 
。 衬 白条 目 表 示 错 误 条 目 ; 非 空白 的 条 目 中 指明 了 应 该 用 其 中 的 产 
生 式 来 扩展 相应 的 非 终结 符号 。 
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图 4~-17 例 4. 32 的 预测 分 析 表 导 
考虑 产生 式 E 一 TE。 因为 
FIRST (CTE') =FIRST (T) ={ (, id} 


这 个 产生 式 被 加 到 M [E，(] 和 M [E，id] 中 。 因 为 FIRST (+TE') = 
{+}， 产 生 式 E 一 +TE' 被 加 入 到 M [LE'，+] 中 。 因 为 FOLLOW (E') = 
{) ，$}， 产 生 式 E' -EE 被 加 入 到 M [E'，) ] 和 M [LE'，$] 中 。 


算法 4.31 可 以 应 用 于 任何 文法 G， 生 成 该 文法 的 语法 分 析 表 M。 对 
于 每 个 LL 〈1) 文法 ， 分 析 表 中 的 每 个 条 目 都 唯一 地 指定 了 一 个 产生 
式 ， 或 者 标明 一 个 语法 错误 。 然 而 ， 对 于 某 些 文 法 ，M 中 可 能 会 有 一 些 
多 重 定 义 的 条 目 。 比 如 ， 如 果 G 是 左 递归 的 或 二 义 性 的 ， 那 么 M 至 少 会 
包 侣 一 个 多 重 定 义 的 和 条目。 虽然 可 以 轻松 对 其 进行 消除 无 递归 和 提取 左 
人 
Pl 


下 面 例子 中 的 语言 根本 没有 相应 的 LL (1) 文法 。 
下 面 重复 一 下 例子 4.22 中 的 文法 。 该 文法 抽象 地 表示 了 巷 空 - 


else 的 问题 。 


























S ,iFtSS'|a 
S' ,eS|e 
E_b 


这 个 文法 的 语法 分 析 表 显示 在 图 4-18 中 。M [S'，e] 的 条 目 同时 包 
含 了 S eS 和 S'_, E€。 








终结 符 eT 
一 


S — EtSS 


图 4-18 例 4. 33 的 分 析 表 | 


这 个 文法 是 二 义 性 的 。 当 在 输入 中 看 到 e《〈 代 表 else) 时 ， 解 决 选择 
使 用 哪个 产生 式 的 问题 就 会 显露 出 此 文法 的 二 义 性 。 解 决 这 个 二 义 性 问 
题 时 ， 我 们 可 以 选择 产生 式 S' ,eS。 这 个 选择 就 相当 于 把 else 和 前 面 最 
近 的 then 关 联 起 来 。 请 注意 ， 选 择 S'E 将 使 得 e 水 远 不 可 能 补 放 到 栈 中 
或 者 从 输入 中 被 消除 ， 因 此 选择 这 个 产生 式 一 定 是 错误 的 。 




















4.4.4” 非 如 归 的 预测 分 析 


我 们 可 以 构造 出 一 个 非 递 归 的 预测 分 析 占 ， 它 显 式 地 维护 一 个 栈 结 
构 ， 而 不 是 通过 递归 调用 的 方式 隐 式 地 维护 栈 。 这 样 的 语法 分 析 器 可 以 
模拟 最 左 推导 的 过 程 。 如 果 w 是 至今 为 止 已 经 匹配 完成 的 输入 部 分 ， 那 
么 栈 中 保存 的 文法 符号 序列 a 满足 





S Swa 
Im 


图 4-19 中 的 由 分 析 表 驱动 的 语法 分 析 费 有 一 个 输入 绥 冲 区 ， 一 个 包 
含 了 文法 符 写 序列 的 栈 ， 一 个 由 算法 4.31 构 造 得 到 的 分 析 表 ， 以 及 一 个 
输出 流 。 它 的 输入 绥 冲 区 中 包含 要 进行 语法 分 析 的 串 ， 串 后 面 跟 有 结束 
标记 $。 我 们 复 用 符号 $ 来 标记 栈 底 。 在 开始 时 刻 ， 栈 中 $ 的 上 方 是 开始 


放生 


付 气 9。 
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图 4-19 ”一 个 分 析 表 驱动 的 预测 分 析 器 的 模型 


语法 分 析 器 由 一 个 程序 控制 。 该 程序 考虑 栈 顶 

号 a。 如 果 X 是 一 个 非 终结 符号 ， 该 分 析 器 查询 分 析 表 M 中 的 条 
M [X，aj 来 选择 一 个 X 产 生 式 。 加以 折 和 一 此 了 加 的 人 | 
如 构造 一 个 语法 分 析 树 结 点 的 代码 。) 否则 ， 它 检查 终结 符号 X 和 当前 
输入 符号 a 是 否 匹 配 。 

这 个 语法 分 析 器 的 行为 可 以 使 用 它 的 格局 〈configuration ) 来 摘 
| 格局 描述 了 栈 中 的 内 容 和 余下 的 输入 。 下 面 的 算法 描述 了 如 何 处 理 

局 。 

表 驱 动 的 预测 语法 分 析 。 

输入 : 一 个 串 w， 文 法 G 的 预测 分 析 表 M。 

输出 : 如 果 w 在 L(G)〉 中 ， 输 出 w 的 一 个 最 左 推导 ; 否则 给 出 一 个 
错误 指示 。 


方法 : 最 初 ， 语 法 分 析 器 的 格局 如 下 : 输入 缓冲 区 中 是 w$， 而 G 的 
开始 符号 5 位 于 栈 顶 ， 它 的 下 面 是 $。 图 4-20 中 的 程序 使 用 预测 分 析 表 M 
生成 了 处 理 这 个 输入 的 预测 分 析 过 程 。 














设置 亡 使 它 指向 由 的 第 一 个 符号 , 其 中 记 是 输入 指针 ; 
令 X= 栈 顶 符号 ; 
while( 共 天 $ ) { 入 栈 非 空 对 
证 ( 入 等 于 各 所 指向 的 符号 & ) 执行 栈 的 弹出 操作 ,将 怒 向 前 移动 一 个 位 置 ; 
else 诺 ( 针 是 一 个 终结 符号 ) error(); 
else if ( M[X,a] 是 一 个 报错 条 目 ) error(); 
else ff (MIX,a =X Yh. ){ 
输出 产生 式 X 一 六; 
弹出 栈 顶 符 号 ; 
将 际 , 蒜 -1 ,页 压 信 栈 中 , 其 中 六 位 于 栈 顶 。 


} 
令 区 = 楼 顶 符号 ; 








图 4-20 “预测 分 析 算 法 


考虑 文法 (4.28) 。 我 们 已 经 在 图 4-17 中 看 到 了 它 的 预测 分 析 
表 。 处 理 输 入 id + 这” id 时 ， 算 法 4.34 的 非 递归 预测 分 析 器 顺序 执行 图 4- 
21 中 显示 的 各 个 步骤。 这 些 步骤 对 应 于 一 个 最 左 推导 〈 完 整 的 推导 过 程 
见 图 4-12) : 
























神 





id + id * id$ 

TE'$ id+idxid$ 输出 EF 一 TE 

PT'E'$ id+idxid$ 输出 了 一 下 7 
id7'PB94 id+idxid$ 输出 fF 一 id 


id 了 五 +idxid$ 匹配 id 

id E'S +idxid$ 输出 三 一 # 

id + TE'$ 二 idxid$ 输出 BE’ 二 十 TE' 
id 十 TE'S$ idxid$ 匹配 十 

id 十 FT'E'S$ idx*xid$ 输出 TT 地 FT' 
id 十 id T'E’$ idxid$ 输出 FF 二 id 

id + id T'E’$ *id$ ”匹配 id 

id +id * FT'E'$ *id$ 输出 _T’ 寺 x* FT! 
id +id * FT'E'$ id$ 匹配 * 

id 十 id * id T'E'’S$ id$ 输出 Fid 

id + id * id T'E'$ $ ”匹配 id 

id + id * id 万 '$ $ 输出 T' 一 ¢ 

id + id *id $ $ 输出 6’ 一 ¢ 





图 4-21 ”对 输入 idtid*id 进 行 预 测 分 析 时 执行 的 步 又 


下 一 了 天 一 了 7 一 id7 天 一 id 天 一 id + TE =o 
lm Im Im Im Im lm 








请 注意 ， 这 个 推导 中 的 各 个 句 型 对 应 于 已 经 被 匹配 的 输入 部 分 〈 见 
图 中 的 已 匹配 列 》 加 上 栈 中 的 内 容 。 我 们 显示 已 匹配 输入 就 是 为 了 强调 
这 种 对 应 关系 。 因 为 同样 的 原因 ， 在 图 中 将 栈 顶 显示 在 左边 。 当 我 们 考 
虑 目 底 癌 上 语法 分 析 时 ， 将 栈 顶 显示 在 右边 会 更 加 上 自然。 分 析 器 的 输入 
指针 指向 “输入 ” 列 中 的 串 的 最 左边 的 符号 。 


4.4.5 ”预测 分 析 中 的 错误 恢复 


在 讨论 错误 恢复 时 要 考虑 一 个 由 分 析 表 驱动 的 预测 分 析 器 的 栈 ， 因 
为 这 个 栈 明确 地 显示 了 语法 分 析 峰 期 望 用 哪些 终结 符号 及 非 终结 符号 来 
匹配 余下 的 输入 。 这 个 技术 也 可 以 在 递归 下 降 语 法 分 析 过 程 中 使 用 。 


当 栈 顶 的 终结 符号 和 下 一 个 输入 符号 不 匹配 时 ， 或 者 当 非 终结 符号 
A 处 于 栈 顶 ，a 是 下 一 个 输入 符号 ， 且 M [A，aj] 为 error 〈 即 相应 的 语 
法 分 析 表 条 目 为 空 ) 时 ， 预 测 语法 分 析 过 程 就 可 以 检测 到 语法 错误 。 














恐 惨 模 式 
恐 怪 模式 的 错误 恢复 是 基于 下 面 的 思想 。 语 法 分 析 器 忽略 输入 中 的 





些 符号 ， 直 到 输入 中 出 现 由 设计 者 选 定 的 同步 词法 单元 集合 中 的 某 个 
词法 单元 。 它 的 有 效 性 依赖 于 同步 集合 的 选取 。 选 取 这 个 集合 的 原则 是 
应 该 使 得 语法 分 析 器 能 够 从 实践 中 可 能 遇 到 的 错误 中 快速 恢复 。 下 面 是 
一 些 局 发 式 规则 : 


1) 首先 将 FOLLOW (A) 中 的 所 有 符号 都 放 到 非 终结 符号 A 的 同步 
集合 中 。 如 果 我 们 不 断 忽略 一 些 词 法 单元 ， 直 到 磁 到 了 FOLLOW (A) 
中 的 某 个 元 素 ， 然 后 再 将 A 从 栈 中 弹出 ， 那 么 很 可 能 语法 分 析 过 程 就 能 
够 继续 进行 。 


2) 只 使 用 FOLLOW (A) 作为 A 的 同步 集合 是 不 够 的 。 比 如 ，C 语 
言 用 分 号 表示 一 个 语句 结束 ， 那 么 语句 开头 的 关键 字 可 能 不 会 出 现在 代 
表 表 达 式 的 非 终 结 符号 的 FOLLOW 集合 中 。 因 此 ， 在 一 个 赋值 语句 之 后 
遗漏 分 号 可 能 会 使 得 语法 分 析 器 忽略 下 一 个 语句 开头 的 关键 字 。 一 个 语 














言 的 各 个 构造 之 间 常 常 存在 茶 个 层次 结构 。 比 如 ， 表 达 式 出 现在 语句 内 
部 ， 而 语句 出 现在 块 内 部 ， 等 等 。 我 们 可 以 把 较 高 层 构 造 的 开始 符号 加 
入 到 较 低层 构造 的 同步 集合 中 去 。 比 如 ， 我 们 可 以 把 语句 开头 的 关键 字 
加 入 到 生成 表达 式 的 非 终 结 符号 的 同步 集合 中 去 。 


3) 如 果 我 们 把 FIRST (CA) 中 的 符号 加 入 到 非 终 结 符 号 A 的 同步 集 
合 中 ， 那 么 当 FIRST (A) 中 的 某 个 符号 出 现在 输入 中 时 ， 我 们 就 有 可 
能 可 以 根据 A 继 续 进 行 语 法 分 析 。 


4) 如 宋 一 个 非 终结 符号 可 以 生成 空 串 ， 那 么 可 以 把 推导 出 E 的 产 
生 式 当 作 黑 认 值 使 用 。 这 人 么 做 可 能 会 延迟 对 某 些 错误 的 检测 ， 但 是 不 会 
使 错误 被 漏 检 。 这 个 方法 可 以 减少 我 们 在 处 理 错误 恢复 时 需要 考虑 的 非 
终结 符号 的 数量 。 


5) 如 果 栈 顶 的 一 个 终结 符号 不 能 和 输入 匹配 ， 一 个 简单 的 想法 是 
将 该 终结 符号 弹出 栈 ， 并 发 出 一 个 消息 称 已 经 插入 了 这 个 终结 符号 ， 同 
时 继续 进行 语法 分 析 。 从 效果 上 看 ， 这 个 方法 是 将 所 有 其 他 词法 单元 的 
集合 作为 一 个 词法 单元 的 同步 集合 。 


当 按 照常 用 的 表达 式 文法 (4.28) 对 表达 式 进 行 语法 分 析 时 ， 
FIRST 和 FOLLOW 符号 作为 同步 集合 就 能 够 很 好 地 完成 任务 。 图 4- 
17 中 此 文法 的 语法 分 析 表 在 图 4-22 中 再 次 给 出 。 图 4-22 中 使 用 “synch” 来 
表示 根据 相应 非 终 结 符 号 的 FOLLOW 集合 得 到 的 同步 词法 单元 。 各 个 非 
终结 符号 的 FOLLOW 集合 是 从 例子 4.30 中 得 到 的 。 


图 4-22 中 的 分 析 表 将 按照 如 下 方式 使 用 。 如 果 语 法 分 析 器 查看 
M [A，aj] 并 发 现 它 是 空 的 ， 那 么 输入 符号 a 就 被 忽略 。 如 果 该 条 目 
是 “synch”， 那 么 在 试图 继续 分 析 时 ， 栈 顶 的 非 终结 符号 被 弹出 。 如 果 
那么 我 们 就 按 上 述 方式 从 栈 中 弹出 
这 个 单元 。 

















前 和 符号 








synch | synch 





图 4-22 ”加 入 到 图 4-17 的 预测 分 析 表 中 的 同步 词法 单元 


对 于 错误 输入 +id + id， 语 法 分 析 器 以 及 图 4-22 中 的 错误 恢复 机 制 
的 工作 过 程 如 图 4-23 所 > 示 。 








pp$ +id* 二 id$ 错误 ， 略 过 ) 


E94 idx 二 id$ id 在 FIRST( 五 ) 中 
TB idx+id$ 
FT'E'S id*x+id$ 
idT'E'S idx+id$ 
T'E'S$ * 十 id $ 
* PT'E'S * 二 id$ 

FT'E'S +id$ 错误 ，M[ 玉 +] = synch 

T'E'§ 十 id$ 所 已 经 被 弹出 栈 
E'S$ 二 id$ 
十 工 五 '$ 二 idg$ 
TE'S id$ 
FT'E'S id$ 
id T'E'$ id$ 
T'E'§ $ 
E'S $ 
$ $ 





图 4-23 ”一 个 预测 分 析 器 所 做 的 语法 分 析 和 错误 恢复 步 又 


上 面 的 关于 恐 久 模式 错误 恢复 的 讨论 没有 考虑 有 关 错 误 消 奶 的 重要 
问题 。 编 译 需 的 设计 者 必须 提供 足够 的 包含 有 用 信息 的 错误 消 轧 ， 它 不 
仅 描 述 相应 的 错误 ， 还 必须 引导 人 们 注意 错误 被 发 现 的 地 方 。 


短语 层次 的 恢复 


短语 层次 错误 恢复 的 实现 方法 是 在 预测 语法 分 析 表 的 空白 条 目 中 填 
写 指向 处 理 例 程 的 指针 。 这 些 例 程 可 以 改变 、 插 入 或 删除 输入 中 的 符 
号， 并 发 出 适当 的 错误 消息 。 它 们 也 可 能 执行 一 些 出 栈 操作 。 改 变 栈 中 
和 从 写 或 将 新 符 写 压 入 栈 中 可 能 会 引起 一 些 问 题 ， 其 原因 有 多 个 。 首 先 ， 
由 语法 分 析 需 执行 的 动作 可 能 根本 不 对 应 于 语言 中 任何 句子 的 推导 过 
程 。 第 二 ， 我 们 必须 保证 分 析 吉 不 会 陷入 无 限 循环 。 防 止 出 现 无 限 循环 
的 一 个 好 办 法 是 保证 任何 恢复 动作 最 终 都 会 消耗 掉 东 个 输入 符号 《〈 当 到 
达 输 入 结尾 处 时 ， 则 需要 保证 栈 中 的 内 容 会 变 少 ) 。 


























4.4.6 4.4 节 的 练习 

练习 4.4.1: 为 下 面 的 每 一 个 文法 设计 一 个 预测 分 析 器 ， 并 给 出 预测 
分 析 表 。 你 可 能 先 要 对 文法 进行 提取 左 公 因子 或 消除 左 递归 的 操作 。 
练习 4.2.2 (1) 中 的 文法 。 
练习 4.2.2 (2) 中 的 文法 。 
练习 4.2.2 (3) 中 的 文法 。 
练习 4.2.2 (4) 中 的 文法 。 
练习 4.2.2 (5) 中 的 文法 。 
练习 4.2.2 (7) 中 的 文法 。 

! ! 练习 4.4.2: 有 没有 可 能 通过 某 种 方法 修改 练习 4.2.1 中 的 文法 ， 
构造 出 一 个 与 该 练习 中 的 语言 (运算 分 量 为 a 的 后 级 表达 式 ) 对 应 的 预 
测 分 析 器 ? 

练习 4.4.3: 计算 练习 4.2.1 的 文法 的 FIRST 和 FOLLOW 集合 。 

练习 4.4.4: 计算 练习 4.2.2 中 各 个 文法 的 FIRST 和 FOLLOW 集合 。 

练习 4.4.5: 文法 SaSa |aa 生成 了 所 有 由 a 组 成 的 长 度 为 偶数 的 
串 。 我 们 可 以 为 这 个 文法 设计 一 个 带 回溯 的 递归 下 降 分 析 器 。 如 果 我 们 
选择 先 用 产生 式 S ~ aa 展开 ， 那 么 我 们 只 能 识别 到 串 aa。 因 此 ， 任 何 合 
理 的 递归 下 降 分 析 器 将 首先 尝试 S -aSa。 


1) 说 明 这 个 递归 下 降 分 析 旨 识 别 输入 aa、aaaa 和 aaaaaaaa， 但 是 识 
别 不 了 aaaaaa。 


! ! 2) 这 个 递归 下 降 分 析 器 识别 什么 样 的 语言 ? 


下 面 的 练习 是 构造 任意 文法 的 “Chomsky 范 式 ” 的 有 用 步骤 。 
Chomsky 汇 式 将 在 练习 4.4.8 中 定义 。 
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1 练习 4.4.6: 如 果 一 个 文法 没有 产生 式 体 为 € 的 产生 式 〔 称 为 E 产 
生 式 ) ， 那 么 这 个 文法 就 是 无 EE 产生 式 的 。 

1) 给 出 一 个 算法 ， 它 的 功能 是 把 任何 文法 转变 成 一 个 无 Ee 产生 式 
的 生成 相同 语言 的 文法 (唯一 可 能 的 例外 是 空 没有 哪个 无 Ee 产生 
式 的 文法 能 生成 E ) 。 提 示 : 首先 找 出 所 有 可 能 为 空 的 非 终 结 符 写 。 非 
终结 符号 可 能 为 空 是 指 它 (可 能 通过 很 长 的 推导 〉 生成 E。 


2) 将 你 的 算法 应 用 于 文法 S aSbS |bSaS | €。 


! 练习 4.4.7: 单产 生 式 (single production) 是 指 其 产生 式 体 为 单个 
非 终 结 符号 的 产生 式 ， 即 形 如 A -B 的 产生 式 ， 其 中 A、B 为 任意 的 非 终 








1) 给 出 一 个 算法 ， 它 可 以 把 任何 文法 转变 成 一 个 生成 相同 语言 
(唯一 可 能 的 例外 是 空 串 ) 的 、 无 E 产 生 式 、 无 单产 生 式 的 文法 。 提 
示 : 首先 消除 E -产生 式 ， 然 后 找 出 所 有 满足 下 列 条 件 的 非 终 络 符号 对 A 
和 B: 存在 一 系列 单产 生 式 使 得 4 之 B 。 


2) 将 你 的 算法 应 用 于 4.1.2 节 的 算法 (4.1) 。 


3) 说 明 作 为 (1) 的 一 个 结果 ， 我 们 可 以 把 一 个 文法 转变 为 一 个 没 
有 环 〈 即 对 茶 个 非 终 结 符号 A 存在 一 步 或 多 步 的 推导 4 忆 4 ) 的 等 价 文 
J 


! ! 练习 4.4.8: 如 果 一 个 文法 的 每 个 产生 式 要 么 形 如 A BC， 要 人 么 
形 如 A -,a， 其 中 A、B 和 C 是 非 终 结 符 号， 而 a 是 终结 符号 ， 那 么 这 个 文 
法 就 称 为 Chomsky 范 式 (“Chomsky Normal Form，CNF) 文法 。 说 明 如 
何 将 任意 文法 转变 成 一 个 生成 相同 语言 (唯一 可 能 的 例外 是 空 串 一 一 疫 
有 CNF 文 法 可 以 生成 E ) 的 CNF 文 法 。 


! 练习 4.4.9: 对 于 每 个 具有 上 下 文 无 关 文法 的 语言 ， 其 长 度 为 n 的 
串 可 以 在 O (ws) 的 时 间 内 完成 识别 。 完 成 这 种 识别 工作 的 一 个 简单 方 
法 称 为 Cocke-Younger-Kasami (CYK) 算法 。 该 算法 基于 动态 规划 技 
术 。 也 就 是 说 ， 给 定 一 个 串 aiaz…an， 我 们 构造 出 一 个 nxn 的 表 T 使 得 Ti 
是 可 以 生成 子 串 aiaiw4.…aj 的 非 终 结 符号 的 集合 。 如 末 基 础 文法 是 CNF 的 

〈 见 练习 4.4.8) ， 那 么 只 要 我 们 按照 正确 的 顺序 来 填 表 : 先 填 j-i 值 最 小 
的 条 目 ， 则 表 中 的 每 一 个 条 目 都 可 以 在 O(n) 时 间 内 填写 完毕 。 给 出 








一 个 能 够 正确 填写 这 个 表 的 条 目的 算法 ， 并 说 明 你 的 算法 的 时 间 复 杂 度 
为 O (m3) 。 填 完 这 个 表 之 后 ， 你 如 何 判断 a1a2.…a, 是 否 在 这 个 语言 中 ? 


! 练习 4.4.10: 说 明 我 们 如 何 能 够 在 填 好 练习 4.4.9 中 的 表 之 后 ， 在 
O (Cn) 时 间 内 获得 ajay...aj 对 应 的 一 棵 语法 分 析 树 ?提示 : 修改 练习 
4.4.9 中 的 表 T， 使 得 对 于 表 的 每 个 条 目 Ti 中 的 每 个 非 终结 符号 A， 这 个 
0 0 
放 到 Ti 中 。 


! 练习 4.4.11: 修改 练习 4.4.9 中 的 算法 ， 使 得 对 于 任意 符 写 串 ， 它 
可 以 找 出 至 少 需要 执行 多 少 次 插入 、 删 除 和 修改 错误 《每 个 错误 是 一 个 
字符 ) 的 操作 才能 将 这 个 串 变 成 基础 文法 的 语言 的 句子 。 


! 练习 4.4.12: 图 4-24 中 给 出 了 对 应 于 某 些 语句 的 文法 。 你 可 以 将 e 
和 s 当 作 分 别 代表 条 件 表 达 式 和 “其 他 语句 ”的 终结 符 写 。 如 果 我 们 按照 
下 列 方法 来 解决 因为 展开 可 选 “else”( 非 终结 符号 stmtTail〉 而 引起 的 冲 
突 : 当 我 们 从 输入 中 看 到 一 个 else 时 就 选择 消耗 掉 这 个 ealse。 使 用 4.4.5 贡 
中 描述 的 同步 符号 的 思想 : 

















if e then stmt stmtTail 
while e do stmt 
begin list end 

S 


€ 

stmt list Tail 
; list 

€ 


list 
list Tail 


一 
| 
stmtTail — else stmt 
一 人 
一 全 





图 4-24 某 种 类 型 语句 的 文法 
1) 为 这 个 文法 构造 一 个 带 有 错误 纠正 信息 的 预测 分 析 表 。 
2) 给 出 你 的 语法 分 析 咒 在 处 理 下 列 输入 时 的 行为 : 


(a) if e then s; if e then s end 


(b) while e do begin s; if e then s; end 


4.5 自 底 向 上 的 语法 分 析 


一 个 目 底 同上 的 语法 分 析 过 程 对 应 于 为 一 个 输入 串 构 造 语法 分 析 树 
的 过 程 ， 它 从 叶子 结 点 底部) 开始 逐渐 向 上 a 到达 根 结 点 (顶部 )。 将 
语法 分 析 描 述 为 语法 分 析 树 的 构造 过 程 会 比较 方便 ， 虽 然 编 译 器 前 剖 实 
际 上 不 会 显 式 地 构造 出 语法 分 析 树 ， 而 是 直接 进行 翻 泽 。 图 4-25 中 显示 
的 分 析 树 的 快照 序列 演示 了 按照 表达 式 文法 (4.1) 对 词法 单元 序列 记 
*id 进 行 的 自 底 向 上 语法 分 析 的 过 程 。 





id * id F *id T*id T*F J E 
| | | 人、\ | 

id F pP i 了 7 

| | | 可 A 

id id 和 i PE 

id id 


图 4-25 id*id 的 自 底 向 上 分 析 过 程 


本 市 将 介绍 一 个 被 称 为 移入 - 归 约 语法 分 析 的 自 底 向 上 语法 分 析 的 
通用 框架 。 我 们 将 在 4.6 节 和 4.7 节 中 讨论 LR 文 法 类 ， 它 是 最 大 的 、 可 以 
构造 出 相应 移入 - 归 约 语法 分 析 器 的 文法 类 。 虽 然 手 工 构造 一 个 LR 语 法 
分 析 器 的 工作 量 非 常 大 ， 但 借助 语法 分 析 器 自动 生成 工具 可 以 使 人 们 轻 
松 地 根据 适当 的 文法 构造 出 高 效 的 LR 分 析 器 。 本 节 中 的 概念 有 助 于 写 
出 合适 的 文法 ， 从 而 有 效 利用 LR 分 析 占 生成 工具 。 实 现 语 法 分 析 器 生 
成 工具 的 算法 将 在 4.7 市 中 给 出 。 





4.5.1 ” 归 约 


我 们 可 以 将 自 底 同 上 语法 分 析 过 程 看 成 将 一 个 串 w“ 归 约 ” 为 文法 开 
台 符 号 的 过 程 。 在 每 个 归 约 (reduction) 步骤 中 ， 一 个 与 某 产 生 式 体 相 
匹配 的 特定 子 串 被 蔡 换 为 该 产生 式 头 部 的 非 终结 符 号 。 


在 目 确 同上 语法 分 析 过 程 中 ， 关 键 问 题 是 何 时 进行 归 约 以 及 应 用 哪 
个 产生 式 进 行 归 约 。 


图 4-25 中 的 快照 演示 了 一 个 归 约 序列 ， 相 应 的 文法 是 表达 式 文 
法 (4.1) 。 我 们 将 使 用 如 下 的 符号 串 序列 来 讨论 这 个 归 约 过 程 : 


id *id, F *id, T *id, T*F, T, EE 


这 个 序列 中 的 符号 串 由 快照 中 各 相应 子 树 的 根 结 点 组 成 。 这 个 序列 
从 输入 串 id *id 开 始 。 第 一 次 归 约 使 用 产生 式 F id， 将 最 左边 的 id 归 约 
为 E， 得 到 串 F *id。 第 二 次 归 约 将 FE 归 约 为 T， 生 成 T *id。 


现在 我 们 可 以 选择 是 对 串 T 还 是 对 由 第 二 个 id 组 成 的 串 进行 归 约 ， 
其 中 T 是 ET 的 体 ， 而 第 二 个 id 是 F sid 的 体 。 我 们 没有 将 TI 归 约 为 E， 
而 是 将 第 二 个 id 归 约 为 F， 得 到 串 T*F。 然 后 这 个 串 被 归 约 为 T。 最 后 将 
T 归 约 为 开始 符 写 E， 从 而 结束 整个 语法 分 析 过 程 。 

根据 定义 ， 一 次 归 约 是 一 个 推导 步骤 的 反 回 操作 《回顾 一 下 ， 一 次 
推导 步骤 将 句 型 中 的 一 个 非 终 绪 符 号 瞪 换 为 该 符号 的 茶 个 产生 式 的 
体 ) 。 因 此 ， 目 底 同 上 语法 分 析 的 目标 是 反问 构造 一 个 推 蛙 过程。 下 面 
的 推导 对 应 于 图 4-25 中 的 分 析 过 程 : 

E>T=>T*F=>T+*id=>r*id=>id*id 


这 个 推导 过 程 实际 上 是 一 个 最 右 推 导 。 














4.5.2 ”句柄 剪 枝 


对 输入 进行 从 天 到 右 的 扫描 ， 并 在 扫描 过 程 中 进行 目 底 同上 语法 分 
析 ， 就 可 以 及 向 构造 出 一 个 最 右 推导 。 非 正式 地 讲 ,， “句柄 ?是 和 某 个 产 
生 式 体 下 配 的 于 串 ， 对 它 的 归 约 代表 了 相应 的 最 石 推导 中 的 一 个 反 同步 


又 

















比如 ， 在 按照 表达 式 文法 (4.1) 对 id * id 进行 语 法 分 析 时 ， 各 个 
句柄 如 网 4-26 所 示 。 为 了 表示 得 更 清楚 ， 我 们 为 其 中 的 词法 单元 id 加 上 
了 下 标 。 虽 然 T 是 产生 式 E -T 的 体 ， 但 符号 T 并 不 是 句 型 T+id, 的 一 个 句 
柄 。 假 如 IT 真 的 被 蔡 换 为 E， 我 们 将 得 到 串 E*id,， 而 这 个 串 不 能 从 开始 
符号 E 推 导 得 到 。 因 此 ， 和 某 个 产生 式 体 匹 配 的 最 左 子 串 不 一 定 是 句 




















柄 。 


最 右 句 型 归 约 用 的 产生 式 








正式 地 讲 ， 如 果 有 5 考 ahw 过 opBw (如 图 4-27 所 示 ) ， 那 么 紧 跟 a 
的 产生 式 A_,B 是 apw 的 一 个 句 权 (handle) 。 换 句 话说， 最 右 句 型 \ 的 一 
个 句柄 是 满足 下 述 条 件 的 产生 式 A_B 及 串 B 在 y 中 出 现 的 位 置 ， 将 这 个 位 
置 上 的 B 蔡 换 为 A 之 后 得 到 的 种 是 y 的 某 个 最 右 推导 序列 中 出 现在 位 于 V 之 


前 的 最 右 句 型 。 
9 
| 
| 
A 
CQ 3 Ww 


图 4-27 a Bw 的 语法 分 析 树 中 的 一 个 句柄 A B 


请 注意 ， 人 句柄 右边 的 串 w 一 定 只 包含 终结 符 写 。 为 方便 起 见 ， 我 们 
把 产生 式 体 B《〈 而 不 是 A-~B) 称 为 一 个 句柄 。 注 意 ， 我 们 说 的 是 “一 个 句 
柄 >， 而 不 是 “唯一 句柄 ”。 这 是 因为 文法 可 能 是 二 义 性 的 ，opw 可 能 存在 
多 个 最 右 推导 。 如 果 一 个 文法 是 无 二 义 性 的 ， 那 么 该 文法 的 每 个 右 句 型 
都 有 且 只 有 一 个 句柄 。 


通过 “句柄 勇 核 ?可 以 得 到 一 个 反 回 的 最 右 推导 。 也 惑 是 说 ， 我 们 从 
被 分 析 的 终结 符号 串 w 开 始 。 如 果 w 是 当前 文法 的 句子 ， 那 么 令 w=yn， 




















其 中 Ww 是 某 个 未 知 最 右 推 导 的 第 n 个 最 右 句 型 。 


一 Yo Yi SN YY 一 WwW 

为 了 以 相反 顺序 重 构 这 个 推导 ， 我 们 在 y, 中 寻找 句柄 B， 并 将 Bi 巷 
换 为 相关 产生 式 A, 一 Bi 的 头 部 ， 得 到 前 一 个 最 右 句 型 yy_1。 请 注意 ,我 
0 0 0 0 
i 

然后 我 们 重复 这 个 过 程 。 也 就 是 说 ， 我 们 在 y,_1 中 寻找 句柄 Bi.1， 并 
对 这 个 句柄 进行 归 约 ， 得 到 最 右 句 型 wy。 如 果 我 们 按照 这 个 过 程 得 到 
了 一 个 只 包含 开始 符号 $ 的 最 右 句 型 ， 那 么 就 可 以 停止 分 析 并 宣称 语法 
分 析 过 程 成 功 完成 。 将 归 约 过 程 中 用 到 的 产生 式 反 辣 排 序 ， 束 得 到 了 输 
入 串 的 一 个 最 右 推导 过 程 。 








4.5.3 移入- 归 约 语法 分 析 技 术 


移入 - 归 约 语法 分 析 是 自 底 向 上 语法 分 析 的 一 种 形式 。 它 使 用 一 个 
栈 来 保存 文法 符 写 ， 并 用 一 个 输入 缓冲 区 来 存放 将 要 进行 语法 分 析 的 其 
余 符 号 。 我 们 将 看 到 ， 句 柄 在 被 识别 之 前 ， 总 是 出 现在 栈 的 顶部 。 

我 们 使 用 $ 来 标记 栈 的 底部 以 及 输入 的 右 端 。 按 照 惯 例 ， 在 讨论 目 
底 同 上 语法 分 析 的 时 候 ， 我 们 将 栈 项 显示 在 右 侧 ， 而 不 是 像 在 自 项 加 下 
语法 分 析 中 那样 显示 在 左 侧 。 如 下 所 示 ， 开 始 的 时 候 栈 是 空 的 ， 并 且 输 
入 冲 w 存 放 在 输入 绥 冲 区 中 。 


栈 输入 
$ w $ 
在 对 输入 串 的 一 次 从 左 到 右 扫 摘 过 程 中 ， 语 法 分 析 器 将 零 个 或 多 个 


输入 符号 移 到 栈 的 顶端 ， 直 到 它 可 以 对 栈 顶 的 一 个 文法 符号 串 B 进 行 归 
约 为 止 。 它 将 B 归 约 为 条 个 产生 式 的 涉 。 语 法 分 析 占 不 断 地 重复 这 个 御 








大全 


环 ， 直 到 它 检测 到 一 个 语法 错误 ,或 者 栈 中 包含 了 开始 符 写 且 输 入 缓冲 
区 为 空 为 止 : 


栈 输入 
$5 $ 





当 进 入 这 样 的 格局 时 ， 语 法 分 析 器 停止 运行 ， 并 宣称 成 功 完 成 了 语 
法 分 析 。 图 4-28 显 示 了 一 个 移入 - 归 约 语法 分 析 器 在 按照 表达 式 文 法 
(4.1) 对 输入 串 id *id, 进 行 语 法 分 析 时 可 能 采取 的 动作 。 


移入 
按照 FF id 归 约 
按照 工 上 下 归 约 
移入 


移入 
按照 五 一 id 归 约 
按照 工 瞩 工 * 下 归 约 
按照 瓦 一 下 归 约 
接受 


图 4-28 一 个 移入 - 归 约 语法 分 析 器 在 处 理 输入 id1*id5 时 经 历 的 格局 





虽然 主要 的 语法 分 析 操 作 是 移入 和 归 约 ， 但 实际 上 一 个 移入 - 归 约 
语法 分 析 器 可 采取 如 下 四 种 可 能 的 动作 :QW 移入 ， 避 归 约 ，B) 接 受 ，@ 
报错 。 

1) 移入 (shift) : 将 下 一 个 输入 符号 移 到 栈 的 顶端。 

2) 归 约 《reduce) : 和 被 归 约 的 符号 串 的 右 端 必然 是 栈 项 。 语 法 分 
en 


3) 接受 (accept) : 宣布 语法 分 析 过 程 成 功 完成 。 


4) 报错 error) : 发 现 一 个 语法 错误 ， 并 调用 一 个 错误 恢复 子 例 
es 


我 们 之 所 以 能 够 在 移入 - 归 约 语法 分 析 中 使 用 栈 ， 是 因为 这 个 分 析 
过 程 具 有 如 下 重要 性 质 : 句柄 总 是 出 现在 栈 的 顶端， 绝 不 会 出 现在 栈 的 
中 间 。 要 证 明 这 个 性 质 ， 我 们 只 需要 考虑 任意 最 右 推导 中 的 两 个 连续 步 
又 可 能 具有 的 形式 。 图 4-29 演 示 了 两 种 可 能 的 情况 。 在 情况 〈1) 中 ，A 
被 将 换 为 BByY， 然 后 产生 陈 体 BBy 中 最 右 非 终结 符号 B 被 昔 换 为 y。 在 情 
况 〈2) 中 ，A 仍 然 首 先 被 展开 ， 但 这 次 使 用 的 产生 式 体 y 中 只 包含 终结 
符号 。 下 一 个 最 右 非 终结 符号 B 将 位 于 y 左 侧 的 茶 个 地 方 。 





5 





sn \ 
从 
y Z 
Ne ea 


图 4-29 ”一 个 最 右 推 好 中 两 个 连续 步骤 的 两 种 情况 
换 句 话说 : 
1) S$ Sadz >apBBbyz apByyz 


rm 


2) SaBxAz >aPBxyz > Ay)yz 


rm 


反 回 考虑 情况 (1)〉， 即 一 个 移入 - 归 约 语法 分 析 絮 刚刚 到 达 如 下 格 
局 的 情况 : 


栈 位 人 
$aBYy yz 5 


语法 分 析 器 将 句柄 y 归 约 为 B， 从 而 到 达 如 下 格局 : 


$aBb yz $ 


现在 ， 语 法 分 析 器 可 以 通过 零 次 或 多 次 移入 动作 ， 把 串 y 移 入 到 栈 的 上 
方 ， 得 到 如 下 格局 : 


$aBBy z $$ 


其 中 ， 句 柄 BBy 位 于 栈 顶 ， 它 将 被 归 约 为 A。 
现在 考虑 情况 〈2) 。 在 格局 





$ay wy $ 


中 ， 句 柄 Y 位 于 栈 顶 。 将 句柄 y 归 约 为 B 之 后 ， 语 法 分 析 器 可 以 把 串 xy 移 
入 栈 中 ， 得 到 位 于 栈 项 的 下 一 个 句柄 y。 该 句柄 可 以 被 归 约 为 A: 


$aPxy z$ 


在 这 两 种 情况 下 ， 语 法 分 析 吉 在 进行 一 次 归 约 之 后 ， 都 必须 接着 移 
入 零 个 或 多 个 符号 才能 在 栈 顶 找到 下 一 个 句柄 。 因 此 它 从 不 需要 到 栈 中 
间 去 寻找 句柄 。 


4.5.4 移入 - 归 约 语法 分 析 中 的 冲突 


有 些 上 下 文 无 关 文 法 不 能 使 用 移入 - 归 约 语法 分 析 技 术 。 对 于 这 样 
的 文法 ， 每 个 移入 - 归 约 语法 分 析 旨 都 会 得 到 如 下 的 格局 : 即使 知道 了 
栈 中 的 所 有 内 容 以 及 接 下 来 的 k 个 输入 符号 ， 我 们 仍然 无 法 判断 应 该 进 
行 移入 还 是 归 约 操作 (移入 / 归 约 冲突 ) ， 或 者 无 法 在 多 个 可 能 的 归 约 
方法 中 选择 正确 的 归 约 动作 〈 归 约 / 归 约 冲突 ) 。 现 在 我 们 给 出 一 些 语 
法 构造 的 例子 ， 这 些 构 造 的 文法 可 能 会 出 现 这 样 的 冲突 。 从 技术 上 来 


讲 ， 这 些 文法 不 在 4.7 节 定义 的 LR〈k) 文法 类 中 ， 我 们 把 它们 称 为 非 
LR 文法 。LR(k) 中 的 k 表 示 在 输入 中 同 前 看 k 个 符号 。 在 编译 中 使 用 的 
文法 通常 属于 LR〈1) 文法 类 ， 即 最 多 只 需要 向 前 看 一 个 符号 。 


El 一 个 二 义 性 文法 不 可 能 是 LR 的 。 比 如 ， 考 虑 4.3 节 中 的 悬空- 
else 文 法 (4.14) : 





stmt—> lf expr then sim:t 
| if expr then simit else simit 
| other 
如 果 我 们 有 一 个 移入 - 归 约 语法 分 析 器 处 于 格局 
栈 输入 


… if expr then simt else … $ 


中 ， 那 么 不 管 栈 中 fexpr then stmt 之 下 是 什么 内 容 ， 我 们 都 不 能 确定 它 

是 否 是 句柄 。 这 里 就 出 现 了 一 个 移入 / 归 约 冲突 。 根 据 输入 中 else 之 后 的 

内 容 的 不 同 ， 可 能 应 该 将 if expr then stmt 归 约 为 stmt， 也 可 能 应 该 将 else 
移入 然后 再 寻找 男 一 个 stmt， 从 而 找到 完整 的 stmt 产 生 式 体 if expr then 


stmt else stmt。 


请 注意 ， 经 过 修正 的 移入 - 归 约 语法 分 析 技 术 可 以 对 某 些 二 义 性 文 
法 进行 语法 分 析 ， 比 如 上 面 的 if-then-else 文 法 。 如 果 我 们 在 碰 到 else 时 选 
择 移入 来 解决 移入 / 归 约 冲突 ， 语 法 分 析 器 就 会 按照 我 们 的 期 望 运行 ， 
也 就 是 将 每 个 else 和 前 一 个 尚未 匹配 的 then 相 关联 。 我 们 将 在 4.8 节 讨论 
能 够 处 理 这 种 二 义 性 文法 的 语法 分 析 器 。 


男 一 个 常见 的 冲突 情况 发 生 在 我 们 确认 已 经 找到 句柄 的 时 候 。 在 这 
种 情况 下 我 们 不 能 够 根据 栈 中 内 容 和 下 一 个 输入 符号 确定 应 该 使 用 哪个 
产生 式 进行 归 约 。 下 面 的 例子 说 明了 这 种 情况 。 


假设 我 们 有 这 样 一 个 词法 分 析 圳 ， 它 不 考 谍 各 个 名 字 的 类 型 ， 
征 对 所 有 的 名 字 都 返回 词法 单元 名 id。 假 设 我 们 的 语言 在 调用 过 程 时 











会 给 出 过 程 名 字 ， 并 把 调用 参数 放 在 括号 内 。 并 且 假 设 引用 数组 的 语法 
与 此 相同 。 因 为 在 数组 引用 中 对 下 标的 翻译 不 同 于 过 程 调用 中 对 参数 的 
翻译 ， 我 们 希望 使 用 不 同 的 产生 式 分 别 生成 实在 参数 列表 和 下 标 列表 。 
因此 ， 我 们 的 文法 包含 了 图 4-30 中 所 示 的 产生 式 《〈 还 包含 其 他 产生 
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图 4-30 有关 过 程 调用 和 数组 引用 的 产生 式 


一 个 以 p Ci，j) 开头 的 语句 将 以 词法 单元 流 id (id，id) 的 方式 输 
入 到 语法 分 析 器 中 。 在 将 前 三 个 词法 单元 移入 到 栈 中 后 ， 移 入 - 归 约 语 
法 分 析 器 将 处 于 如 下 格局 中 : 


栈 位 入 
.id ( id 证] 


显然 ， 栈 项 的 庆 必 须 被 归 约 ， 但 使 用 哪个 产生 式 呢 ? 如 果 p 是 一 个 过 
程 ， 那 么 正确 的 选择 是 产生 式 〈5) ; 但 如 果 p 是 一 个 数组 ， 就 该 选择 产 
生 式 (7) 。 栈 中 的 内 容 并 没有 指出 p 是 什么 ， 必 须 使 用 从 p 的 声明 中 获 
得 的 符号 表 中 的 信息 来 确定 。 


解决 方法 之 一 是 将 产生 式 〈1) 中 的 词法 单元 id 改 成 procid， 并 使 用 
一 个 更 加 复杂 的 词法 分 析 器 。 该 词法 分 析 器 在 识别 到 一 个 过 程 名 字 的 词 
素 时 返回 词法 单元 名 procid。 这 就 要 求 词 法 分 析 器 在 返回 一 个 词法 单元 
之 前 先 查询 符号 表 。 











如 果 我 们 做 了 这 样 的 修改 ， 那 么 在 处 理 p Ci，j) 的 时 候 ， 语 法 分 析 
俐 要 么 进入 格局 


栈 输入 
… procid ( id ,id ) … 


要 么 进入 前 面 描述 的 格局 。 在 前 一 种 情况 下 ， 我 们 选择 产生 式 〈5) 进 
行 归 约 ; 在 后 一 种 情况 下 ， 则 选择 产生 式 〈“7〉 进行 归 约 。 请 注意 ， 在 

这 个 例子 里 ， 栈 项 之 下 的 第 三 个 符号 决定 了 应 该 执行 什么 归 约 ， 虽 然 它 
本 吴 并 没有 被 归 约 。 移 入 - 归 约 的 语法 分 析 技 术 可 以 使 用 栈 中 离 栈 项 很 

远 的 信息 来 引导 语法 分 析 过 程 。 











4.5.5 4.5 节 的 练习 

练习 4.5.1: 对 于 练习 4.2.2 (a) 中 的 文法 S~0S1101， 指 出 下 面 各 
个 最 右 句 型 的 句柄 : 

1) 000111 

2) 00S11 


练习 4.5.2: 对 于 练习 4.2.1 的 文法 SS S+|SS*|a 和 下 面 各 个 最 右 
句 型 ， 重 复 练习 4.5.1。 


1) SSS+ta*t+ 
2) SS+a*at 


3) aaa*at++ 


练习 4.5.3: 对 于 下 面 的 输入 符 写 串 和 文法 ， 说 明 相 应 的 目 确 加 上 语 
法 分 析 过 程 。 


1) 练习 4.5.1 的 文法 的 串 000111。 
2) 练习 4.5.2 的 文法 的 串 aaa*at+。 


4.6 LR 语法 分 析 技 术 介 绍 : 人 简单 LR 技术 


目前 最 流行 的 目 底 同上 语法 分 析 吉 都 基于 所 谓 的 LR〈k) 语法 分 析 
的 概念 。 其 中 ，“ 世 ?表示 对 输入 进行 从 左 到 右 的 扫描 ,“R” 表 示 反 回 构 造 
出 一 个 最 右 推 导 序列 ， 而 k 表 示 在 做 出 语法 分 析 记 定时 问 前 看 k 个 输入 符 
写 。k=0 和 k=1 这 两 种 情况 具有 实践 意义 ， 因 此 这 里 我 们 将 只 考虑 k<1 的 
情况 。 当 省 略 〈k) 时 ， 我 们 假设 k=1。 


本 节 将 介绍 LR 语 法 分 析 的 基本 概念 ， 同 时 还 将 介绍 最 简单 的 构造 
移入 - 归 约 语法 分 析 需 的 方法 。 这 个 方法 称 为 “简单 LR 扩 术 ”《〈 或 简称 为 
SLR) 。 虽 然 LR 语 法 分 析 需 本 身 是 使 用 语法 分 析 需 目 动 生 成 工具 构造 得 
到 的 ， 但 对 基本 概念 有 所 了 解 仍 然 是 有 益 的 。 我 们 首先 介绍 “项 ”和 “ 语 
法 分 析 避 状态 ”的 概念 ， 一 个 LR 语法 分 析 右 生成 工具 给 出 的 诊断 信息 通 
0 含 语法 分 析 吕 状态。 我 们 可 以 使 用 这 些 状 态 分离 出 语法 分 析 冲 突 
和 源头。 


4.7 节 将 介绍 两 个 更 加 复杂 的 方法 一 一 规范 LR 和 LALR。 它 们 被 用 于 
大 多 数 的 LR 语法 分 析 器 中 。 








4.6.1 ”为 什么 使 用 LR 语法 分 析 占 





LR 语法 分 析 器 是 表格 驱动 的 ， 在 这 一 点 上 它 和 4.4.4 节 中 提 到 的 非 
递归 IEL 语 法 分 析 器 很 相似 。 如 果 我 们 可 以 使 用 本 节 和 下 一 节 中 的 某 个 
方法 为 一 个 文法 构造 出 语法 分 析 表 ， 那 么 这 个 文法 吉 称 为 LR 文 法 〈LR 
grammar) 。 直 观 地 讲 ， 只 要 存在 这 样 一 个 从 左 到 右 扫 摘 的 移入 - 归 约 语 
法 分 析 器 ， 它 总 是 能 够 在 某 文法 的 最 右 句 型 的 句柄 出 现在 栈 顶 时 识别 出 
这 个 句柄 ， 那 么 这 个 文法 就 是 LR 的 。 


LR 语法 分 析 技 术 很 有 吸引 力 ， 原 因 如 下 : 
。 对 于 几乎 所 有 的 程序 设计 语言 构造 ， 只 要 能 够 写 出 该 构造 的 上 下 文 


无 天 文法 ， 就 能 够 构造 出 识别 该 构造 的 LR 语 法 分 析 器 。 确 实 存在 
非 LR 的 上 下 文 无 关 文 法 ， 但 一 般 来 说 ， 币 见 的 程序 设计 语言 构造 





都 可 以 避免 使 用 这 样 的 文法 。 
。 工 R 语 法 分 析 方 法 是 已 知 的 最 通用 的 无 回调 移入 - 归 约 分 析 技 术 ， 并 
Se 
局 效 。 
一 个 LR 语 法 分 析 器 可 以 在 对 输入 进行 从 左 到 右 扫描 时 尽 可 能 早 地 
检测 到 错误 。 
可 以 使 用 LR 方法 进行 语法 分 析 的 文法 类 是 可 以 使 用 预测 方法 或 LL 
方法 进行 语法 分 析 的 文法 类 的 真 超 集 。 一 个 文法 是 LR(k) 的 条 件 
古 当 我 们 在 一 个 最 右 句 型 中 看 到 茶 个 产生 陈 的 右 部 时 ， 我 们 再 同 前 
看 k 个 符号 就 可 以 决定 是 否 使 用 这 个 产生 式 进行 归 约 。 这 个 要 求 比 
LL (k) 文法 的 要 求 宽松 很 多 。 对 于 LL 〈k) 文法 ， 我 们 在 决定 是 
个 使 用 某 个 产生 了 式 时 ， 只 能 同 前 看 该 产生 式 右 部 推导 出 的 串 的 前 k 
Ts 


LR 方法 的 主要 缺点 是 为 一 个 典型 的 程序 设计 语言 文法 手工 构造 LR 
分 析 需 的 工作 量 非 党 大 。 我 们 需要 一 个 特殊 的 工具 ， 即 一 个 LR 语 法 分 
析 需 生成 工具 。 竺 运 的 是 ， 有 很 多 这 样 的 生成 工具 可 用 ， 我 们 将 在 4.9 
节 讨 论 其 中 最 常用 的 工具 Yacc。 这 种 生成 工具 将 一 个 上 下 文 无 关 文 法 作 
为 输入 ， 自 动 生成 一 个 该 文法 的 语法 分 析 器 。 如 果 该 文法 含有 二 义 性 的 
构造 ， 或 者 含有 其 他 难以 在 从 左 到 右 扫 描 时 进行 语法 分 析 的 构造 ， 那 么 
语法 分 析 器 生成 工具 将 对 这 些 构造 进行 定位 ， 并 给 出 详细 的 诊断 消息 。 








4.6.2 项 和 LR (0) 自动 机 


一 个 移入 - 归 约 语法 分 析 器 怎么 知道 何 时 进行 移入 、 何 时 进行 归 约 
呢 ? 比如 ， 当 图 4-28 中 栈 的 内 容 为 $T 而 下 一 个 输入 符号 是 * 时 ， 语 法 分 
析 器 是 怎么 知道 位 于 栈 顶 的 IT 不 是 句柄 ， 因 此 正确 的 动作 是 移入 而 不 是 
将 T 归 和约 到 E 呢 ? 


一 个 LR 语法 分 析 器 通过 维护 一 些 状 态 ， 用 这 些 状态 来 表明 我 们 在 
语法 分 析 过 程 中 所 处 的 位 置 ， 从 而 做 出 移入 - 归 约 决定 。 这 些 状态 代表 
了 “项 ”(item〉 的 集合 。 一 个 文法 G 的 一 个 LR (0) 项 (简称 为 项 ) 是 G 
的 一 个 产生 式 再 加 上 一 个 位 于 它 的 体 中 某 处 的 点 。 因 此 ， 产 生 式 
A XYZ 产生 了 四 个 项 : 


A—:XYZ 
A—X:YZ 
A—-XY:Z 
A—=XYZ: 


产生 式 A EE 只 生成 一 个 项 A 、…。 


项 集 的 表示 


一 个 生成 目 底 同上 语法 分 析 器 的 生成 工具 可 能 需要 便利 地 表示 项 
和 项 集 。 请 注意 ， 一 个 项 可 以 表示 为 一 对 整数 ， 第 一 个 整数 是 基础 文 
法 的 产生 式 编 号 ， 第 二 个 整数 是 点 的 位 置 。 项 集 可 以 用 这 些 数 对 的 列 





表 来 表示 。 然 而 ， 如 我 们 将 看 到 的 ， 需 要 用 到 的 项 集 通 第 包含 “ 闭 
包 ?” 项 ， 这 些 项 的 点 位 于 产生 陈 体 的 开始 处 。 这 些 项 总 是 可 以 根据 项 
> 因此 我 们 不 必 将 它们 包含 在 这 个 列表 








直观 地 讲 ， 项 指明 了 在 语法 分 析 过 程 中 的 给 定点 上 ， 我 们 已 经 看 到 
了 一 个 产生 式 的 哪些 部 分 。 比 如 ， 项 A .XYZ 表明 我 们 希望 接 下 来 在 输 
入 中 看 到 一 个 从 XYZ 推 导 得 到 的 串 。 项 A X:YZ 说 明 我 们 刚刚 在 输入 中 
看 到 了 一 个 可 以 由 X 推 导 得 到 的 串 ， 并 且 我 们 希望 接 下 来 看 到 一 个 能 从 
YZ 推导 得 到 的 串 。 项 A ,XYZ 表示 我 们 已 经 看 到 了 产生 式 体 XYZ， 己 
经 是 时 候 把 XYZ 归 约 为 A 了 。 


一 个 称 为 规范 LR (0) 项 集 族 (canonical LR (0) collection) 的 一 
组 项 集 提供 了 构建 一 个 确定 有 穷 自 动机 的 基础 。 该 目 动 机 可 用 于 做 出 语 
法 分 析 决 定 。 这 样 的 有 穷 自动 机 称 为 LR (0) 自动 机 团 。 更 明确 地 说 ， 
这 个 LR 0) 上 自动 机 的 每 个 状态 代表 了 规范 LR(0) 项 集 族 中 的 一 个 项 
集 。 表 达 式 文法 (4.1) 的 对 应 的 自动 机 显示 在 图 4-31 中 。 我 们 将 把 它 用 
做 讨论 规范 LR (0) 项 集 族 的 连续 使 用 的 例子 。 
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图 4-31 表达 式 文法 (4.1) 的 LR (0) 自动 机 


为 了 构造 一 个 文法 的 规范 LR (0) 项 集 族 ， 我 们 定义 了 一 个 增 广 文 
法 (augmented grammar) 和 两 个 函数 : CLOSURE 和 GOTO。 如 果 G 是 
一 个 以 S 为 开始 符号 的 文法 ， 那 么 G 的 增 广 文法 G' 就 是 在 G 中 加 上 新 开始 
符号 S$ 和 产生 式 S ~ S 而 得 到 的 文法 。 引 入 这 个 新 的 开始 产生 式 的 目的 是 
告诉 语法 分 析 器 何 时 应 该 停止 语法 分 析 并 宣称 接受 输入 符号 串 。 也 就 是 
当 且 仅 当 语法 分 析 器 要 使 用 规则 $' - S 进 行 归 约 时 ， 输 入 符号 串 被 
党 。 


项 集 的 财 包 


如 果 I 是 文法 G 的 一 个 项 集 ， 那 么 CLOSURE (I) 就 是 根据 下 面 的 两 
个 规则 从 I 构造 得 到 的 项 集 : 





1) 一 开始 ， 将 I 中 的 各 个 项 加 入 到 CLOSURE (I) 中 。 


2) 如 果 A a:BB 在 CLOSURE (I) 中 ，By 是 一 个 产生 式 ， 并 且 
项 By 不 在 CLOSURE (1) 中 ， 束 将 这 个 项 加 入 其 中 。 不 断 应 用 这 个 
规划， 直到 没有 新 项 可 以 加 入 到 CLOSURE (1) 中 为 止 。 


直观 地 讲 ，CLOSURE (I) 中 的 项 A a:BPB 表 明 在 语法 分 析 过 程 的 
某 点 上 ， 我 们 认为 接 下 来 可 能 会 在 输入 中 看 到 一 个 能 够 从 BB 推导 得 到 的 
子 串 。 这 个 可 从 BB 推导 得 到 的 子 串 的 某 个 前 级 可 以 从 B 推 导 得 到 ， 而 推 
导 时 必然 要 应 用 某 个 B 产 生 式 。 因 此 我 们 加 入 了 各 个 B 产 生 式 对 应 的 
项 ， 也 就 是 说 ， 如 果 B -~Y 是 一 个 产生 式 ， 那 么 我 们 把 BY 加 入 到 
CLOSURE (1) 中 。 


考虑 增 广 的 表达 式 文法 : 
E'—E 
E>E+TIT 
TT Rl 
F- (E) |id 


如 果 I 是 由 一 个 项 组 成 的 项 集 { [E's.E]」 }， 那 么 CLOSURE (1) 包 
含 了 图 4-31 中 的 项 集 I0。 


下 面 说 明 一 下 如 何 计 算 这 个 闭 包 。 根 据 规则 (1) ，E'-E 被 放 到 
CLOSURE (1) 中 。 因 为 点 的 右边 有 一 个 E， 我 们 加 入 如 下 的 E 产 生 式 ， 
点 位 于 产生 式 体 的 左 端 : EE-:E+T 和 FE-、*T。 现 在 ， 后 一 个 项 中 有 一 个 T 
在 点 的 右边 ， 因 此 我 们 加 入 T-:T*F 和 T-_:F。 接 下 来 ， 位 于 点 右边 的 F 
令 我 们 加 入 FE) 和 Fid， 然 后 就 不 再 需要 加 入 任何 新 的 项 。 


闭 包 可 以 按照 图 4-32 中 的 方法 计算 。 实 现 函 数 closure 的 一 个 便利 方 
法 是 设置 一 个 布尔 数组 added， 该 数组 的 下 标 是 G 的 非 终结 符号 。 当 我 们 
为 各 个 B 产 生 式 By 加 入 对 应 的 项 B:y 时 ，added [B] 被 设置 为 true。 


SetOfItems CLOSURE(T) { 
全 
repeat 
for (JJ 中 的 每 个 项 4 一 a:BB ) 
for (G 的 每 个 产生 式 妃 一 7 ) 


if (项 B 一 ,7 不 在 J 中 ) 
将 B 二 .y 加 入 JJ 中 ; 
until 在 某 一 轮 中 没有 新 的 项 被 加 入 到 .J 中 ; 


return .J; 





图 4-32 CLOSURE 的 计算 


请 注意 ， 如 果 点 在 最 左 端 的 某 个 B 产 生 式 被 加 入 到 I 的 闭 包 中 ， 那 么 
所 有 B 产 生 式 都 会 被 加 入 到 这 个 闭 包 中 。 因 此 在 某 些 情 况 下 ， 不 需要 真 
的 将 那些 被 CLOSURE 函 数 加 入 到 I 中 的 项 B ~.Y 列 出 来 ， 只 需要 列 出 这 
些 被 加 入 的 产生 式 的 左 部 非 终结 符号 承 足够 了 。 我 们 将 感 兴趣 的 各 个 项 
分 为 如 下 两 类 : 


1) 内 核 项 : 包括 初始 项 S'S 以 及 点 不 在 最 左 端的 所 有 项 。 
2) 非 内 核 项 : 除了 S' -~ 'S 之 外 的 点 在 最 左 端的 所 有 项 。 


不 仅 如 此 ， 我 们 感 兴趣 的 每 一 个 项 集 都 是 茶 个 内 核 项 集合 的 财 包 ， 
当然 ， 在 求 团 包 时 加 入 的 项 不 可 能 古 内 核 项 。 因 此 ， 如 果 我 们 抛弃 所 有 
非 内 核 项 ， 就 可 以 用 很 少 的 内 存 来 表示 真正 感 兴趣 的 项 的 集合 ， 因 为 我 
们 已 知 这 些 非 内 核 项 可 以 通过 闭 包 运算 重新 生成 。 在 图 4-31 中 ， 非 内 核 
项 位 于 表示 状态 的 方 框 的 阴影 部 分 中 。 


GOTO 了 函数 


第 二 个 有 用 的 函数 是 GOTO (I，X) ， 其 中 I 是 一 个 项 集 而 X 是 一 个 
文法 符号 。GOTO 〈I，X) 被 定义 为 I 中 所 有 形 如 [A -a:XB」 的 项 所 对 
应 的 项 [A -aX:B] 的 集合 的 闭 包 。 直 观 地 讲 ，GOTO 函 数 用 于 定义 一 
个 文法 的 LR (0) 自动 机 中 的 转换 。 这 个 自动 机 的 状态 对 应 于 项 集 ， 而 
GOTO 〈I，X) 摘 述 了 当 输 入 为 X 时 离开 状态 I 的 转换 。 








EE 风 W ” 如 果 I 是 两 个 项 的 集合 { LE' ->E:] ， [LEE:+T」}， 那 么 
GOTO (I，+) 包含 如 下 项 : 


EE+:T 
T_,:T*F 
我 们 查找 I 中 点 的 右边 紧 跟 + 的 项 ， 就 可 以 计算 得 到 GOTO (I， 
+) 。E' EE: 不 是 这 样 的 项 ， 但 EE:+T 是 这 样 的 项 。 我 们 将 点 移 过 + 号 
得 到 EE+:T， 然 后 求 出 这 个 单元 素 集 合 的 闭 包 。 


现在 我 们 可 以 给 出 构造 一 个 增 广 文 法 G' 的 规范 LR (0) 项 集 族 C 的 
算法 。 这 个 算法 如 图 4-33 所 示 。 


文法 (4.1) 的 规范 LR (0) 项 集 族 和 GOTO 函 数 如 图 4-31 所 
不 。 上 其 中 ，GOTO 函 数 用 图 中 的 转换 表示 。 


void items(G’) { 
C ={CLOSURE({[9 一 :5]})}; 
Tepeat 
for (C 中 的 每 个 项 集 7 ) 
for ( 每 个 文法 符号 闵 ) 


if ( GoTO(T,X) 非 空 且 不 在 C 中 ) 
将 GOTo(T, X) 加 入 C 中; 
until 在 某 一 轮 中 没有 新 的 项 集 被 加 入 到 C 中 ; 





图 4-33 ”规范 LR (0) 项 集 族 的 计算 
LR (0) 自动 机 的 用 法 


“简单 LR 语 法 分 析 技 术 ”〈 即 SLR 分 析 技 术 ) 的 中 心思 想 是 根据 文法 
构造 出 LR《〈0) 目 动 机 。 这 个 目 动机 的 状态 是 规范 LDR《〈0) 项 集 族 中 的 


元 素 ， 而 它 的 转换 由 GOTO 了 水 数 给 出 。 表 达 式 文法 (4.1) 的 LR (0) 自 
动机 已 经 在 前 面 的 图 4-31 中 显示 过 了 。 


这 个 LR (0) 自动 机 的 开始 状态 是 CLOSURE ({ [S'。.:S] }) ， 其 
中 S' 是 增 广 文法 的 开始 符号 。 所 有 的 状态 都 是 接受 状态 。 我 们 说 的 “ 状 
态 j 指 的 是 对 应 于 项 集 I 的 状态 。 


LR《〈0) 目 动 机 是 如 何 帮 助 做 出 移入 - 归 约 决定 的 呢 ? 移入 -规约 决 
定 可 以 按照 如 下 方式 做 出 。 假 设 文法 符号 串 y 使 LR (0) 目 动 机 从 开始 
状态 0 运行 到 东 个 状态 j。 那 么 如 果 下 一 个 输入 符号 为 a 且 状态 ;有 一 个 在 a 
上 的 转换 ， 就 移入 a。 人 否则 我 们 就 选择 归 约 动作 。 状 态 j 的 项 将 告诉 我 们 
使 用 哪个 产生 式 进 行 归 约 。 


将 在 4.6.3 节 中 介绍 的 LR 语 法 分 析 算 法 用 它 的 栈 来 跟踪 状态 及 文法 
符号 。 实 际 上 ， 文 法 符号 可 以 从 相应 状态 中 获取 ， 因 此 它 的 栈 只 保存 状 
态 。 下 面 的 例子 将 展示 如 何 使 用 一 个 LR《〈0) 目 动 机 和 一 个 状态 栈 来 做 
出 移入 - 归 约 语法 分 析 决 定 。 


图 4-34 给 出 了 一 个 使 用 图 4-31 中 的 LR (0) 自动 机 的 移入 - 归 约 
看法 分 析 器 在 分 析 id * id 时 采取 的 动作 。 我 们 使 用 一 个 栈 来 保存 状态 。 
为 清晰 起 见 ， 栈 中 状态 所 对 应 的 文法 符号 显示 在 “符号 ? 列 中 。 在 第 1 
行 ， 栈 中 存放 了 自动 机 的 开始 状态 0， 相 应 的 符号 是 栈 底 标记 $。 
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移入 到 5 

按照 一 id 归 约 
按照 工 一 五 归 约 
移入 到 7 

移入 到 5 
按照 下 一 1d 归 约 
按照 下 一 人 + 五 归 约 
按照 忌 一 工 归 约 
接受 


图 4-34 id*id 的 语法 分 析 
下 一 个 输入 符号 是 id， 而 状态 0 在 id 上 有 一 个 到 达 状 态 5 的 转换 。 


此 我 们 选择 移入 。 在 第 2 行 ， 状 态 5〈 符 号 id) 已 经 被 压 入 到 栈 中 。 从 状 
态 5 出 发 没有 输入 * 上 的 转换 ， 因 此 我 们 选择 归 约 。 根 据 状 态 5 中 的 项 





和 
(2) 
(3) 
(4) 
(5) 
(6) 
(7) 
(8) 
(9) 








[F id:」] ， 这 次 归 约 应 用 产生 式 F id。 


如 果 栈 中 保存 的 是 文法 符号 ， 那 么 归 约 就 是 通过 将 相应 产生 式 的 体 
(在 第 2 行 中 ， 产 生 式 的 体 是 id) 弹出 栈 并 将 产生 式 头 〈 在 这 个 例子 中 
是 F) 压 入 栈 中 来 实现 的 。 现 在 栈 中 保存 的 是 状态 ， 我 们 弹出 和 符号 id 
对 应 的 状态 5， 使 得 状态 0 成 为 栈 项 。 然 后 我 们 寻找 一 个 F《 即 该 产生 式 
的 头 部 ) 上 的 转换 。 在 图 4-31 中 ， 状 态 0 有 一 个 F 上 的 到 达 状 态 3 的 转 
换 ， 因 此 我 们 压 入 状态 3。 这 个 状态 对 应 的 符号 是 E， 见 第 3 行 。 


我 们 看 为 一 个 例子 ， 考 虑 第 5 行 ， 状 态 7〈 符 写 *) 位 于 栈 项 。 这 个 
状态 有 一 个 id 上 的 到 达 状 态 5 的 转换 ， 因 此 我 们 将 状态 5《〈 符 号 这 ) 压 入 
栈 中 。 状 态 5 没有 转换 ， 因 此 我 们 按照 F-, 庆 进行 归 约 。 当 我 们 弹出 对 应 
于 产生 式 体 id 的 状态 5 后 ， 状 态 7 到 达 栈 项 。 因 为 状态 7 有 一 个 F 上 的 转换 
到 达 状 态 10， 我 们 压 入 状态 10《〈 符 号 F) 。 





4.6.3 ”LR 语法 分 析 算 法 


图 4-35 中 显示 了 一 个 LR 语法 分 析 器 的 示意 图 。 它 由 一 个 输入 、 一 个 
输出 、 一 个 栈 、 一 个 驱动 程序 和 一 个 语法 分 析 表 组 成 。 这 个 分 析 表 包括 
两 个 部 分 (ACTION 和 GOTO)〉。 所 有 LR 语法 分 析 器 的 驱动 程序 都 是 相 
同 的 ， 而 语法 分 析 表 是 随 语 法 分 析 器 的 不 同 而 变化 的 。 语 法 分 析 器 从 输 
入 缓冲 区 逐个 读 入 符号 。 当 一 个 移入 - 归 约 语法 分 析 器 移入 一 个 符号 
时 ，LR 语 法 分 析 器 移入 的 是 一 个 对 应 的 状态 。 每 个 状态 都 是 对 栈 中 该 
状态 之 下 的 内 容 所 含 信 息 的 摘要 。 


输入 | | ools 














ACTION 


图 4-35 ”一 个 LR 语法 分 析 器 的 模型 


分 析 器 的 栈 存 放 了 一 个 状态 序列 sos1...s%， 其 中 s, 位 于 栈 顶 。 在 
SLR 方 法 中 ， 栈 中 保存 的 是 LR (0) 自动 机 中 的 状态 ， 规 范 LR 和 LALR 
方法 和 SLR 方 法 类 似 。 根 据 构造 方法 ， 每 个 状态 都 有 一 个 对 应 的 文法 符 
写 。 回 顾 一 下 ， 各 个 状态 都 和 某 个 项 集 对 应 ， 并 且 有 一 个 从 状态 i 到 状 
态 j 的 转换 当 且 仅 当 GOTO (Ti;，X)=I;。 所 有 到 达 状 态 j 的 转换 一 定 对 应 
于 同一 个 文法 符号 X。 因 此 ， 除 了 开始 状态 0 之 外 ， 每 个 状态 都 和 唯一 
的 文法 符号 相关 联 峡 。 


LR 语法 分 析 表 的 结构 


语法 分 析 表 由 两 个 部 分 组 成 : 一 个 语法 分 析 动 作 函 数 ACTION 和 一 
个 转换 函数 GOTO。 

1) ACTION 函 数 有 两 个 参数 :一 个 是 状态 i， 另 一 个 是 终结 符号 
a 。ACTION [i，aj 的 取 值 可 以 有 下 列 四 种 
形式 : 


中 移入 j， 其 中 j 是 一 个 状态 。 语 法 分 析 器 采取 的 动作 是 把 输入 符号 
a 高 效 地 移入 栈 中 ， 但 是 使 用 状态 j 来 代表 a。 


a @ 归 约 A~B。 语 法 分 析 器 的 动作 是 把 栈 项 的 B 高 效 地 归 约 为 产生 式 
六 A。 


G@) 接受 。 语 法 分 析 器 接受 输入 并 完成 语法 分 析 过 程 。 

网 报错 。 语 法 分 析 器 在 它 的 输入 中 发 现 了 一 个 错误 并 执行 某 个 纠 
正 动作 。 我 们 将 在 4.8.3 有 和 4.9.4 节 中 进一步 讨论 这 样 的 错误 恢复 例 程 是 
如 何 工 作 的 。 

2) 我 们 把 定义 在 项 集 上 的 GOTO 函 数 扩展 为 定义 在 状态 集 上 的 函 
数 : 如 果 GOTO [I，Aj] =I， 那 么 GOTO 也 把 状态 i 和 一 个 非 终 结 符号 A 
了 映射 到 状态 j。 

LR 语 法 分 析 器 的 格局 


描述 LR 语 法 分 析 器 的 行为 时 ， 我 们 需要 一 个 能 够 表示 LR 语 法 分 析 











器 的 完整 状态 的 方法 。 语 法 分 析 器 的 完整 状态 包括 : 它 的 栈 和 余下 的 输 
入 。LR 语 法 分 析 器 的 格局 (configuration〉 是 一 个 形 如 : 


(S0S1...Sm; diai+1...an $) 


的 对 。 其 中 ， 第 一 个 分 量 是 栈 中 的 内 容 ( 右 侧 是 栈 项 ) ， 第 二 个 分 量 是 
余下 的 输入 。 这 个 格局 表示 了 如 下 的 最 右 句 型 : 





XI1X,...Xmaiairi...an 





它 表示 最 右 句 型 的 方法 本 质 上 和 一 个 移入 - 归 约 语法 分 析 器 的 表示 方法 
相同 。 唯 一 的 不 同 之 处 在 于 栈 中 存放 的 是 状态 而 不 是 文法 符号 ， 从 这 些 
状态 能 够 复原 出 相应 的 文法 符号 。 也 就 是 说 ，X; 是 状态 s; 所 代表 的 文法 
符号 。 请 注意 ，s0《〈 即 分 析 器 的 开始 状态 ) 不 代表 任何 文法 符号 ， 它 只 
是 作为 栈 底 标 记 ， 同 时 也 在 语法 分 析 过 程 中 担负 了 重要 的 角色 。 

LR 语法 分 析 右 的 行为 

语法 分 析 器 根据 上 面 的 格局 决定 下 一 个 动作 时 ， 首 先 读 入 当前 输入 
符号 和 栈 顶 的 状态 s\， 然 后 在 分 析 动 作 表 中 查询 条 目 ACTOIN Ls,， 
al] 。 对 于 前 面 提 到 的 四 种 动作 ， 每 个 动作 结束 之 后 的 格局 如 下 : 


1) 如 果 ACTION [su，ai] = 移入 s， 那 么 语法 分 析 器 执行 一 次 移入 
动作 ; 它 将 下 一 个 状态 s 移 入 栈 中 ， 进 入 格局 














(S0S1...SmS; ai+1...an$) 


符号 a 不 需要 存放 在 栈 中 ， 因 为 在 需要 时 (在 实践 中 从 不 需要 a) 
可 以 根据 s 恢 复出 a;。 现 在 ， 当 前 的 输入 符号 是 ai,1。 





2) 如 果 ACTION [sv，ai] = 规约 A BB， 那么 语法 分 析 器 执行 一 次 
归 约 动作 ， 进 入 格局 


(SOS1...Smrs; iai+1...an$) 





其 中 ，r 是 B 的 长 度 ， 且 s=GOTO [s,,，A]」 。 在 这 里 ， 语 法 分 析 器 首先 


将 r 个 状态 符号 弹出 栈 ， 使 状态 sn 位 于 栈 顶 。 然 后 ， 语 法 分 析 器 将 s《〈 即 
条 目 GOTO [sm,，Aj 的 值 ) 压 入 栈 中 。 在 一 个 归 约 动作 中 ， 当 前 的 输 
入 符号 不 会 改变 。 对 于 我 们 将 构造 的 LR 语法 分 析 右 ， 对 应 于 被 弹出 栈 
的 状态 的 文法 符号 序列 X41...Xm 总 是 等 于 ， 即 归 约 使 用 的 产生 式 的 
右 部 。 

在 一 次 归 约 动作 之 后 ，LR 语 法 分 析 器 将 执行 和 归 约 所 用 产生 式 关 
联 的 语义 动作 ， 生 成 相应 的 输出 。 我 们 暂时 假设 输出 的 内 容 仅 仅 包括 打 
印 出 归 约 产生 式 。 


3) 如 果 ACTION [sn，aij] = 接受 ， 那 么 语法 分 析 过 程 完 成 





4) 如 果 ACTION [sn，ai] = 报错 ， 则 说 明 语法 分 析 器 发 现 了 一 个 
语法 错误 ， 并 调用 一 个 错误 恢复 例 程 。 

LR 语法 分 析 算 法 总 结 如 下 。 所 有 的 LR 语法 分 析 器 都 按照 这 个 方式 
执行 ， 两 个 LR 语法 分 析 器 之 间 的 唯一 区 别 是 它们 的 语法 分 析 表 的 
ACTION 表 项 和 GOTO 表 项 中 包含 的 信息 不 同 。 

LR 语 法 分 析 算 法 。 

输入 : 一 个 输入 串 w 和 一 个 LR 语 法 分 析 表 ， 这 个 表 描 述 了 文法 G 的 

ACTION 孙 数 和 GOTO 消 数 。 


输出 : 如 果 w 在 L〈G) 中 ， 则 输出 w 的 目 底 和 同上 语法 分 析 过 程 中 的 
归 约 步骤; 否则 给 出 一 个 错误 指示 。 

方法 : 最 初 ， 语 法 分 析 器 栈 中 的 内 容 为 初始 状态 sg， 输入 绥 冲 区 中 
的 内 容 为 w$。 然 后 ， 语 法 分 析 器 执行 图 4-36 中 的 程序 。 





令 a 为 w$ 的 第 一 个 符号 ; 
while(1) { /* 永远 重复 */ 
令 s 是 栈 顶 的 状态 ; 
if ( ACTION[s,a] = 移入 t)f 
将 +t 压 入 栈 中 ; 
令 a 为 下 一 个 输入 符号 ; 
} else if ( ACTION[s,aqj = 归 约 4 一 0 ){ 


从 栈 中 弹出 | 中 | 个 符号 ; 

令 t 为 当前 的 栈 顶 状态 ; 

将 GOTO[t, 4] 压 入 栈 中 ; 

输出 产生 式 4 一 0; 
} else if ( ACTION[s,a] = 接受 ) break; /* 语法 分 析 完 成 */ 
else 调用 错误 恢复 例 程 ; 





图 4-36 LR 语法 分 析 程 序 

图 4-37 显 示 了 表达 式 文法 (4.1) 的 一 个 LR 语法 分 析 表 中 的 
ACTION 和 GOTO 函 数 。 下 面 再 次 给 出 文法 〈4.1) ， 并 对 它们 的 产生 式 
进行 编号 : 

(1) E ,E+T 

(C22 ET 

el be 

(4) T—F 

(5) F—», (E) 

(6) F—id 

各 种 动作 在 此 图 中 的 编码 方法 如 下 : 

1) si 表示 移入 并 将 状态 i 压 栈 ，。 

2) Tj 表示 按照 编写 为 j] 的 产生 式 进行 归 约 。 


3) acc 表 示 接 受 。 


4) 空 日 表示 报错 。 


请 注意 ， 对 于 终结 符号 a，GOTO [s，aj] 的 值 在 ACTION 表 项 中 给 
出 ， 这 个 值 和 在 输入 a 上 对 应 于 状态 s 的 移入 动作 一 起 给 出 。GOTO 条 目 
给 出 了 对 应 于 非 终 结 符号 A 的 GOTO [s，A] 的 值 。 我 们 还 没有 解释 图 
4-37 的 表 中 各 个 条 目 是 如 何 得 到 的 ， 但 很 快 就 会 来 处 理 这 个 问题 。 


ia+rw( ) § | 下 了 下 
S9 s4 


s6 acC 

















二 
ODOOPAONAYLCLO-o 


图 4-37 表达 式 文法 的 语法 分 析 表 


在 处 理 输 入 id * id + id 时 ， 栈 和 输入 内 容 的 序列 显示 在 图 4-38 中 。 





为 清晰 起 见 ， 图 中 还 显示 了 与 栈 中 状态 对 应 的 文法 符号 的 友 列 。 比 如 ， 
在 第 1 行 中 ，LR 语 法 分 析 需 位 于 状态 0 上 。 这 是 初始 状态 ， 没 有 对 应 的 
文法 符号 ， 而 第 一 个 输入 符号 是 id。 图 4-37 中 的 动作 部 分 第 0 行 、id 列 中 
的 动作 是 s55， 表 示 应 该 移入 ， 将 状态 5 压 栈 。 在 第 2 行 ， 状 态 符 号 5 被 压 
入 到 栈 中 ， 而 这 从 输入 中 被 删除 。 


idxid 十 id$ | 移入 
*id 十 id$ | 根据 下 一 id 归 约 

根据 下 一 FR 归 约 
移入 
移入 
根据 一 id 归 约 
根据 T 一 工 * 五 归 约 
根据 上 一 工 归 约 
移入 
移入 
根据 五 一 id 归 约 
根据 TT 一 下 归 约 
根据 瓦 一 已 十 下 归 约 
接受 








图 4-38 ”一 个 LR 语 法 分 析 器 处 理 输入 idkid+id 的 各 个 步骤 


然后 ，* 变 成 了 当前 的 输入 符号 ， 而 状态 5 在 输入 为 * 时 的 动作 是 根 
据 产 生 式 FE- id 进行 归 约 。 一 个 状态 符号 被 弹出 栈 。 然 后 ， 状 态 0 成 为 栈 
项。 因为 状态 0 对 于 F 的 GOTO 值 是 3， 因 此 状态 3 被 压 到 栈 中 。 现 在 我 们 
得 到 第 3 行 中 的 格局 。 下 面 的 各 个 动作 的 执行 方式 与 此 类 似 。 


4.6.4 构造 SLR 语 法 分 析 表 


构造 语法 分 析 表 的 SLR 构 造 方法 是 研究 LR 语 法 分 析 技 术 的 很 好 的 起 
点 。 我 们 把 使 用 这 种 方法 构造 得 到 的 语法 分 析 表 称 为 SLR 语 法 分 析 表 ， 
并 把 使 用 SLR 语 法 分 析 表 的 LR 语 法 分 析 器 称 为 SLR 语 法 分 析 器 。 必 外 两 
种 SLR 方 法 通过 向 前 看 信息 来 增强 分 析 能 


SLR 方 法 以 4.5 节 介绍 的 LR (0) 项 和 LR (0) 自动 机 为 基础 。 也 就 
是 说 ， 给 定 一 个 文法 G， 我 们 通过 添加 新 的 开始 符号 S' 得 到 增 广 文法 G 
'。 我 们 根据 G' 构 造 出 G' 的 规范 项 集 族 C 以 及 GOTO 函 数 。 

然后 ， 使 用 下 面 的 算法 就 可 以 构造 出 这 个 语法 分 析 表 中 的 ACTION 


和 GOTO 条 目 。 它 要 求 我 们 知道 输入 文法 的 每 个 非 终结 符号 A 的 
FOLLOW (CA) ( 见 4.4 节 ) 。 





构造 一 个 SLR 语 法 分 析 表 。 
输入 : 一 个 增 广 文法 G'。 
输出 : G' 的 SLR 语 法 分 析 表 函数 ACTION 和 GOTO。 
方法 : 


1) 构造 G' 的 规范 LR〈0) 项 集 族 C={1o, I ...， 了 hn}。 





2) 根据 I 构造 得 到 状态 i。 状 态 i 的 语法 分 析 动 作 按 照 下 面 的 方法 决 
定 : 

Q@ 如 果 [A 一 araB] 在 I 中 并 且 GOTO (Hi，a) =I， 那 么 将 
ACTION [i,，aj] 设置 为 “移入 j”"。 这 里 a 必须 是 一 个 终结 符号 。 


@ 如 果 [Aa:]」 在 [i 中， 那么 对 于 FOLLOW (A) 中 的 所 有 a， 将 
ACTION Li,，aj 设置 为 “ 归 约 A ,a”。 这 里 A 不 等 于 S'。 


@) 如 果 [S'S:] 在 1 中 ， 那 么 将 ACTION [i，$] 设置 为 “接受 ”。 


如 采 根 据 上 面 的 规则 生成 了 任何 神 突 动作 ， 我 们 束 说 这 个 文法 不 是 
SLR (1) 的 。 在 这 种 情况 下 ， 这 个 算法 无 法 生成 一 个 语法 分 析 器 。 


3) 状态 i 对 于 各 个 非 终 结 符号 A 的 GOTO 转 换 使 用 下 面 的 规则 构造 
得 到 : 如 果 GOTO 〈Ii，A) =， 那 么 GOTO [i，A]j] =j。 





4) 规则 (2)〉 和 “3) 没有 定义 的 所 有 条 目 都 设置 为 "报错 ”。 


语法 分 析 喜 的 初始 状态 就 是 根据 [S' -'S$] 所 在 项 集 构 造 得 到 的 


由 算法 4.46 得 到 的 由 ACTION 函 数 和 GOTO 函 数组 成 的 语法 分 析 表 
被 称 为 文法 G 的 SLR (1) 分 析 表 。 使 用 G 的 SLR(1) 分 析 表 的 LR 语法 
分 析 器 称 为 G 的 SLR (1) 语法 分 析 器 。 一 个 具有 SLR (1) 语法 分 析 表 
的 文法 被 称 为 是 SLR 1) 的。 我 们 常常 省 略 “SLR” 后 面 的 “(1) ”， 
为 我 们 不 会 在 这 里 处 理 向 前 看 多 个 符号 的 语法 分 析 器 。 


a 让 我 们 为 增 广 表达 式 文法 构造 SLR 分 析 表 。 这 个 文法 的 规范 
LR (0) 项 集 族 如 图 4-31 所 示 。 首 先 考虑 项 集 I0: 


E’ —:*E 


Es:E+T 


其 中 的 项 F,.(E) 使 得 条 目 ACTION [0，(] = 移入 4， 项 F _, :id 
使 得 条 目 ACTION [0，id] = 移入 5。 了 0 中 的 其 他 项 没有 生成 动作 。 现 在 
考虑 1: 


E' —E: 
E—E: 十 工 


第 一 个 项 使 得 ACTION [1，$] = 接受 ， 第 二 个 项 使 得 ACTION [1，+] 
= 移入 6。 下 一 步 考虑 L: 


E ST: 
To»T:*F 

因为 FOLLOW (E) = {$，+，) }， 第 一 个 项 使 得 

ACTION [2, $] = ACTION [2, +]= ACTION [2，) |」= 归 约 ET 


第 二 个 项 使 得 ACTION [2，*j] = 移入 7。 按 照 这 个 方式 继续 推导 ， 我 们 
就 得 到 了 图 4-37 所 示 的 ACTION 和 GOTO 表 。 在 该 图 中 ， 归 约 动作 中 的 








产生 式 编号 和 它们 在 原文 法 〈4.1) 中 的 出 现 顺序 相同 。 也 就 是 说 ， 
EE+T 的 编号 为 1， FT 的 编号 为 2， 依 此 类 推 


每 个 SLR (1) 文法 都 是 无 二 义 性 的 ， 但 是 存在 很 多 不 是 
SLR (1) 的 无 二 义 性 文法 。 考 虑 包含 下 列 产生 式 的 文法 : 


S-L=RIR 














L_*Rlid (4.49) 
RL 
将 L 和 R 分 别 看 作 代 表 左 值 和 右 值 的 文法 符号 ， 将 * 看 作 是 代表 “ 左 


值 所 指向 的 内 容 ” 的 运算 符 负 。 文 法 4.49 对 应 的 规范 LR (0) 项 集 族 显示 
在 图 4-39 中 。 











图 4-39 文法 (4. 49) 对 应 的 规范 LR (0) 项 集 族 


考虑 项 集 I,。 这 个 项 集中 的 第 一 个 项 使 得 ACTION [2，=j] 是 “移入 


6”。 因 为 FOLLOW (R) 包含 = 考虑 推导 过 程 $ 忆 L=R 一 *R=R 即 可 知 原 
因 ) ， 第 二 个 项 将 ACTION [2，=] 设置 为 “ 归 约 RL”。 因 为 在 
ACTION [2，=] 中 既 存 在 移入 条 目 又 存在 归 约 条 目 ， 所 以 状态 2 在 输 
入 符号 = 上 存在 移入 / 归 约 冲突 。 


文法 (4.49) 不 是 二 义 性 的 。 产 生 移入 / 归 约 冲突 的 原因 是 构造 SLR 
分 析 器 的 方法 功能 不 够 强大 ， 不 能 记 住 足够 多 的 上 下 文 信息 。 因 此 当 它 
看 到 一 个 可 归 约 为 L 的 串 时 ， 不 能 确定 语法 分 析 器 应 该 对 输入 = 采取 什么 
动作 。 接 下 来 讨论 的 规范 LR 方法 和 LALR 方 法 将 可 以 成 功 地 处 理 更 大 的 
文法 类 型 ， 包 括 文法 (4.49) 。 然 而 请 注意 ， 存 在 一 些 无 二 义 性 的 文法 
使 得 每 种 LR 语 法 分 析 器 构造 方法 都 会 产生 带 有 语法 分 析 动 作 剖 突 的 语 
法 分 析 动 作 表 。 幸 运 的 是 ， 在 处 理 程序 设计 语言 时 ， 一 般 都 可 以 避免 使 
用 这 样 的 文法 。 








4.6.5 “可 行 前 绥 


为 什么 可 以 使 用 LR《0) 目 动 机 来 做 出 移入 - 归 约 决定 ? 对 于 一 个 文 
法 的 移入 - 归 约 语法 分 析 器 ， 该 文法 的 LR《〈0) 目 动 机 可 以 刻画 出 可 能 
现在 分 析 器 栈 中 的 文法 符 写 串 。 栈 中 内 容 一 定 是 某 个 最 右 句 型 的 前 级 。 
如 果 栈 中 的 内 容 是 a 而 余下 的 输入 是 x， 那 么 存在 一 个 将 ax 归 约 到 开始 符 
号 S 的 归 约 序列 。 用 推导 的 方式 表示 就 是 3 过 ax 














然而 ， 不 是 所 有 的 最 右 句 型 的 前 绥 都 可 以 出 现在 栈 中 ， 因 为 语法 分 
析 需 在 移入 时 不 能 越过 句柄 。 比 如 ， 假 设 


EF x id =(E) * id 


rm rm 





那么 在 语法 分 析 的 不 同时 刻 ， 栈 中 存放 的 内 容 可 以 是 〈、 (E 和 
(E) ， 但 不 会 是 CE) *， 因 为 〈E) 是 句柄 ， 语 法 分 析 器 必须 在 移入 * 
之 前 将 它 归 约 为 F。 


可 以 出 现在 一 个 移入 - 归 约 语法 分 析 器 的 栈 中 的 最 右 句 型 前 级 被 称 
为 可 行 前 级 (viable prefix) 。 它 们 的 定义 如 下 : 一 个 可 行 前 缀 是 一 个 最 
右 句 型 的 前 级 ， 并 且 它 没有 越过 该 最 右 句 型 的 最 右 句 柄 的 右 端 。 根 据 这 





个 定义 ， 我们 总 是 可 以 在 一 个 可 行 前 缀 之 后 增加 一 些 终结 符号 来 得 到 一 
个 最 右 句 型 。 


SLR 分 析 技术 基于 LR (0) 自 动机 能 够 识别 可 行 前 级 这 一 事实 。 如 
果 存 在 一 个 推导 过 程 5 性 ahw a BiByw ， 我 们 就 说 项 A Bi.B, 对 于 可 行 前 
级 aB1 有 效 。 一 般 来 说 ， 一 个 项 可 以 对 多 个 可 行 前 级 有 效 。 


项 A -BiB 对 aB1 有 效 的 事实 可 以 告诉 我 们 很 多 信息 。 妆 我 们 在 语 
法 分 析 栈 中 发 现 aqB1 时 ， 这 些 信息 可 以 帮助 我 们 决定 是 进行 归 约 还 是 移 
入 。 特 别 是 ， 如 果 BzE ， 那 么 它 告 诉 我 们 句柄 还 没有 被 全 部 移入 到 栈 
中 ， 因 此 我 们 应 该 选择 移入 。 如 末 B,=E ， 那 么 看 起 来 A Bi1 束 是 句柄 ， 
我 们 应 该 按照 这 个 产生 式 进 行 归 约 。 当 然 ， 可 能 会 有 两 个 有 效 项 要 求 我 
们 对 同一 个 可 行 前 缀 做 不 同 的 事情 。 有 些 这 样 的 冲突 可 以 通过 查看 下 一 
个 输入 符号 来 解决 ， 还 有 一 些 冲 突 可 以 通过 4.8 节 中 的 方法 来 解决 ， 但 
古 我 们 不 应 该 认为 将 LR 方法 应 用 于 任意 文法 所 产生 的 语法 分 析 动 作 冲 
突 都 可 以 得 到 解决 。 


对 于 可 能 出 现在 LR 语法 分 析 栈 中 的 各 个 可 行 前 级 ， 我 们 可 以 很 容 
易 地 计算 出 对 应 于 这 些 可 行 前 缀 的 有 效 项 的 集合 。 实 际 上 ，LR 语 法 分 
析 理 论 的 核心 定理 是 : 如 果 我 们 在 茶 个 文法 的 LR《〈0) 自动 机 中 从 和 初始 
状态 开始 沿 看 标号 为 某 个 可 行 前 级 y 的 路 径 到 达 一 个 状态 ， 那 么 该 状态 
对 应 的 项 集束 是 y 的 有 效 项 集 。 实 质 上 ， 有 效 项 集 包 含 了 所 有 人 能够 从 栈 
be 我 们 不 会 在 这 里 证 明 这 个 定理 ， 但 我 们 将 给 出 一 
广 例 了 于。 











将 项 看 作 一 个 NFA 的 状态 


如 果 将 项 本 身 看 作 状 态 ， 我 们 就 可 以 构造 出 一 个 识别 可 行 前 级 的 
不 确定 有 穷 自动 机 N。 从 A aXB 到 A aX:B 有 一 个 标号 为 X 的 转换 ， 
并 有 旦 从 A -a:BB 到 B -,:y 有 一 个 标号 为 e 的 转换 。 那 么 项 (N 的 状态 ) 
的 集合 I 的 CLOSURE (1) 恰恰 就 是 3.7.1 节 中 定义 的 一 个 NFA 状 态 集 
合 的 E 闭 包 。 由 NFA N 通 过 子 集 构造 法 可 以 得 到 一 个 DFA。 

GOTO (LX) 给 出 了 这 个 DFA 中 状态 I 在 符 写 X 上 的 转换 。 从 这 个 角 
度 看 ， 图 4-33 中 的 过 程 items (G') 就 是 将 子 集 构造 方法 应 用 于 以 项 作 
为 状态 的 NFA N 并 构造 出 DFA 的 过 程 。 


| 


sy 让 我 们 再 次 考虑 增 广 表达 式 文法 。 该 文法 的 项 集 和 GOTO 函 数 
如 图 4-31 所 示 。 显 然 ， 串 E+T* 是 该 文法 的 一 个 可 行 前 级 。 图 4-31 中 的 自 
动机 在 读 入 E+T* 之 后 将 位 于 状态 7 上 。 状 态 7 中 包含 了 项 





TT-»T EF 


RW 的 有 效 项 。 为 了 说 明 原 因 ， 考 虑 如 下 三 个 最 厂 


bE’'=E E'=E E'=E 

Ek +7 SE +7 E+T 

3 E+T*F SE+T*F 
SE+T*(E) E+T* 这 


第 一 个 推导 说 明 T-T*.F 是 有 效 的， 第 二 个 推导 说 明 F-(E) 是 
有 效 的 ， 第 三 个 推导 说 明了 F- id 是 有 效 的 。 可 以 证 明 E+T* 没 有 其 他 的 
有 效 项 ， 但 我 们 并 不 会 在 这 里 证 明 这 个 事实 。 


4.6.6 4.6 节 的 练习 


练习 4.6.1: 描述 下 列 文 法 的 所 有 可 行 前 绥 : 
1) 练习 4.2.2 (1) 的 文法 S~ 0S1101。 


Wl 


1 2 ZINE .9 9+|9 S| 
1 3) 练习 4.2.2 (3) 的 文法 S58 (8) | 


练习 4.6.2: 为 练习 4.2.1 中 的 〈( 增 广 ) 文法 构造 SLR 项 集 。 计 算 这 些 





项 集 的 GOTO 函 数 。 给 出 这 个 文法 的 语法 分 析 表 。 这 个 文法 是 SLR 文 法 
吗 ? 


练习 4.6.3: 利用 练习 4.6.2 得 到 的 语法 分 析 表 ， 给 出 处 理 输入 
aa*a+ 时 的 各 个 动作 。 


练习 4.6.4: 对 于 练习 4.2.2 (1) 一 7) 中 的 各 个 ( 增 广 ) 文法 : 
1) 构造 SLR 项 集 和 它们 的 GOTO 函 数 。 
2) 指出 你 的 项 集中 的 所 有 动作 冲突 。 
3) 如 果 存 在 SLR 语 法 分 析 表 ， 构 造 出 这 个 语法 分 析 表 。 
练习 4.6.5: 说 明 下 面 的 文法 
SAaAb|BbBa 
A—E 
B-,E 
是 LL (1) 的 ， 但 不 是 SLR (1) 的 。 
练习 4.6.6: 说 明 下 面 的 文法 
S~SAIA 

A-a 
是 SLR(1) 的 ， 但 不 是 LL (1) 的 。 
! ! 练习 4.6.7: 考虑 按照 下 面 方式 定义 的 文法 族 G,: 
S-A;b， 其 中 1<i<n 
Ai-a Aila 其 中 1<i, jsnHi zj 


说 明 : 


1) G 有 2n2-n 个 产生 式 。 

2) G 有 2n+n2+n 个 LR 〈0) 项 集 。 

3) G, 是 SLR (1) 的 。 

关于 LR 语法 分 析 器 的 大 小 ， 这 个 分 析 结 果 说 明了 什么 ? 

! 练习 4.6.8: 我 们 说 单个 项 可 以 看 作 一 个 不 确定 有 穷 目 动机 的 状 
态 ， 而 有 效 项 的 集合 就 是 一 个 确定 有 和 穷 目 动机 的 状态 《〈 见 4.6.5 节 中 
的 “将 项 看 作 一 个 NFA 的 状态 ”部 分 ) 。 对 于 练习 4.2.1 的 文法 S$， SS+|5S 
S*|a: 


1) 根据 “将 项 看 作 一 个 NFA 的 状态 ”部 分 中 的 规则 ， 画 出 这 个 文法 
的 有 效 项 的 转换 图 CNFA) 。 


2) 将 子 集 构造 算法 (算法 3.20) 应 用 于 在 (1) 部 分 构造 得 到 的 
NFA。 得 到 的 DFA 和 这 个 文法 的 LR (0) 项 集 相 比 有 什么 关系 ? 


! ! 3) 说 明 在 任何 情况 下 ， 将 子 集 构造 算法 应 用 于 一 个 文法 的 有 
效 项 的 NFA 所 得 到 的 束 是 该 文法 的 LR(0) 项 集 。 


! 练习 4.6.9: 下 面 是 一 个 二 义 性 文法 : 


SASIb 





ASAla 


构造 出 这 个 文法 的 规范 DR《〈0) 项 集 族 。 如 果 我 们 试图 为 这 个 文法 
构造 出 一 个 LR 语法 分 析 表 ， 必 然 会 存在 茶 些 冲 突 动 作 。 部 有 哪些 冲突 
动作 ? 假设 我 们 使 用 这 个 语法 分 析 表 ， 并 且 在 出 现 冲 突 时 不 确定 地 选择 
一 个 可 能 的 动作 。 给 出 处 理 输 入 abab 时 的 所 有 可 能 的 动作 序列 。 


4.7 更 强大 的 LR 语法 分 析 器 


在 本 节 中 ， 我 们 将 扩展 前 面 的 LR 语法 分 析 技 术 ， 在 输入 中 向 前 看 
一 个 符号 。 有 两 种 不 同 的 方法 : 


1) “规范 LR" 方 法 ， 或 直接 称 为 “LR?* 方 法 。 它 充分 地 利用 了 向 前 看 
符号 。 这 个 方法 使 用 了 一 个 很 大 的 项 集 ， 称 为 LR (1) 项 集 。 


2)“ 向 前 看 LR”， 或 称 为 “LALR” 方 法 。 它 基于 LR (0) 项 集 族 。 和 
基于 LR (1) 项 的 典型 语法 分 析 器 相 比 ， 它 的 状态 要 少 很 多 。 通 过 向 
LR 0) 项 中 小 心地 引入 辐 前 看 符号 ， 我 们 使 用 LALR 方 法 处 理 的 文法 
比 使 用 SLR 方 法 时 处 理 的 文法 更 多 ， 同 时 构造 得 到 的 语法 分 析 表 却 不 比 
SLR 分 析 表 大 。 在 很 多 情况 下 ，LALR 方 法 是 最 合适 的 选择 。 


在 介绍 了 这 两 种 方法 之 后 ， 我 们 将 在 本 节 的 结尾 讨论 如 何在 一 个 入 
存 有 限 的 环境 中 建立 简洁 的 LR 语 法 分 析 表 。 


4.7.1 ”规范 LR (1) 项 


现在 我 们 将 给 出 最 通用 的 为 文法 构造 LR 语法 分 析 表 的 技术 。 回 顾 
一 下 ， 在 SLR 方 法 中 ， 如 果 项 集 I 包 含 项 [A a+] ， 且 当前 输入 符号 
在 FOLLOW (A) 中 ， 那 么 状态 i 就 要 按照 A -~ ax 进行 归 约 。 然 而 在 菏 些 
情况 下 ， 妆 状态 出 现在 栈 项 时 ， 栈 中 的 可 行 前 级 是 Ba 且 在 任何 最 右 句 
A 2 A SAR sen 








让 我 们 重新 考虑 例子 4.48， 其 中 的 状态 2 包含 项 RL:。 这 个 项 
对 应 寺 上 面 讨 论 的 A-a， 而 和 a 对 应 的 是 FOLLOW (R) 中 的 符号 =。 
此 ，SLR 语 法 分 析 右 在 下 一 个 输入 为 = 且 状 态 为 2 时 要 求 按照 RL 进行 归 
约 ( 因 为 状态 2 中 还 包含 项 SL:=R， 它 同时 还 要 求 执 行 移入 动作 )。 
然而 ， 例 4.48 的 文法 没有 以 R=... 开 头 的 最 右 名 型。 因此 状态 2 只 和 可 行 
前 级 L 对 应 ， 它 实际 上 不 应 该 执行 从 L 到 R 的 归 约 。 








如 果 在 状态 中 包含 更 多 的 信息 ， 我 们 惑 可 能 排除 揉 一 些 这 样 的 不 正 
确 的 A -a 归 约 。 在 必要 时 ， 我 们 可 以 通过 分 裂 某 些 状态 ， 设 法 让 LR 语 
法 分 析 器 的 每 个 状态 精确 地 指明 哪些 输入 符号 可 以 跟 在 句柄 o 的 后 面 ， 
从 而 使 可 能 被 归 约 成 为 A。 


将 这 个 额外 的 信息 加 入 状态 中 的 方法 是 对 项 进行 精 化 ， 使 它 包含 第 
二 个 分 量 ， 这 个 分 量 的 值 为 一 个 终结 符号 。 项 的 一 般 形式 变 成 了 
LA-~ap， a 5 其 中 A ab 是 一 个 产生 式 ， 而 a 是 一 个 终结 符号 或 右 端 
结束 标记 $。 我 们 称 这 样 的 对 象 为 LR (1) 项 。 其 中 的 1 指 的 是 第 二 个 分 
量 的 长 度 。 第 二 个 分 量 称 为 这 个 项 的 向 前 看 符号 名 。 在 形 如 [A -aB， 
aj] 旦 BE 的 项 中 ， 同 前 看 符号 没有 任何 作用 ， 但 是 一 个 形 如 [Aa， 
aj 的 项 只 有 在 下 一 个 输入 符号 等 于 a 时 才 要 求 按 照 A a 进行 归 约 。 
此 ， 只 有 当 栈 顶 状 态 中 包含 一 个 LR (1) 项 [A ,a:，a] ， 我 们 才 会 在 
输入 为 a 时 按照 A ,a 进行 归 约 。 这 样 的 a 的 集合 总 是 FOLLOW (A) 的 子 
集 ， 而 且 如 例 4.51 所 示 ， 它 很 可 能 是 一 个 真子 集 。 


正式 地 讲 ， 我 们 说 LR (1) 项 [LAsa*B，aj] 对 于 一 个 可 行 前 级 y 有 
效 的 条 件 是 存在 一 个 推导 5 过 64w 之 ago ， 其 中 








1) y=6a, 是 





2) 要 么 a 是 w 的 第 一 个 符 写 ， 要 么 Ww 为 E 有 a 等 于 $。 
让 我 们 考虑 文法 
S- -BB 
B-aBl|b 


该 文法 有 一 个 最 右 推导 5 过 aaBab aaaBab 。 在 上 面 的 定义 中 ， 令 
6=aa，A=B，w=ab，a=a 且 B=B， 我 们 可 知 项 LB a:B，aj 对 于 可 行 前 
缀 Y=aaa 是 有 效 的 。 另 外 还 有 一 个 最 右 推导 $ 子 BoB 一 BuoB 。 根 据 这 个 推 
导 ， 我 们 知道 项 LB-a:B，$」 是 可 行 前 级 Baa 的 有 效 项 。 
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构造 有 效 LR〈1) 项 集 族 的 方法 实质 上 和 构造 规范 LR 〈0) 项 集 族 
的 方法 相同 。 我 们 只 需要 修改 两 个 过 程 : CLOSURE 和 GOTO。 

为 了 理解 CLOSURE 操 作 的 新 定义 ， 特 别 是 理解 为 什么 b 必 须 在 
FIRST (Ba)〉 中， 我 们 考虑 对 某 些 可 行 前 级 y 有 效 的 项 集合 中 的 一 个 形 如 
LA-a:BB，aj 的 项 ， 那 么 必然 存在 一 个 最 右 推导 $ 过 64ax=>6aBBax ， 其 
中 y=56a。 假 设 Bax 推 导出 终结 符号 串 by， 那 么 对 于 某 个 形 如 Bn 的 产生 
式 ， 我 们 有 推导 5 = 三 YBbr 寺 YmbY 。 因 此 ， [Bn，bj」 是 y 的 有 效 项 。 请 
注意 ，b 可 能 是 从 B 推 导 得 到 的 第 一 个 终结 符号 ， 也 可 能 在 Bax 过 by 的 
推导 过 程 中 B 推 导出 了 EeE， 因 此 b 也 可 能 是 a。 总 结 这 两 种 情况 ， 我 们 说 b 
可 以 是 FIRST〈Bax) 中 的 任意 终结 符号 ， 其 中 FIRST 是 在 4.4 节 中 定义 的 
函数 。 请 注意 ，x 不 可 能 包含 by 的 第 一 个 终结 符号 ， 因 此 FIRST (Bax) 
=FIRST〈Ba) 。 现 在 我 们 给 出 LR《〈1) 项 集 的 构造 方法 。 


LR 〈1) 项 集 族 的 构造 方法 。 

Te A 

输出 : LR (1) 项 集 族 ， 其 中 的 每 个 项 集 对 文法 G' 的 一 个 或 多 个 可 
行 前 级 有 效 。 

方法 : 过 程 CLOSURE 和 GOTO， 以 及 用 于 构造 项 集 的 主 例 程 items 
见 图 4-40。 























SetOfItems CLOSURE(T) { 
repeat 
for (了 中 的 每 个 项 [4 一 a:BP,al ) 
for ( G' 中 的 每 个 产生 式 B 一 ) 
for ( FIRST(Ba) 中 的 每 个 终结 符号 b ) 
将 [B 二 7, 中 加 入 到 集合 I 中 ; 

unt 让 不 能 向 T 中 加 入 更 多 的 项 ; 
return 7 ; 


} 


SetOfItems GOTO(I, X){ 
将 J 初始 化 为 空 集 ; 
for (了 中 的 每 个 项 [4 一 acXO,a]) 


将 项 [4 一 aXB,a] 加 入 到 集合 J 中; 
return CLOSURE(J); 


} 


void items(G') { 
将 C 初始 化 为 {CLOSURE}({[S' 一 5,$]}); 
repeat 
for ( C 中 的 每 个 项 集 了 ) 
for (每 个 文法 符号 闵 ) 
if( GOTo(D X) 非 空 且 不 在 C 中 ) 
将 GoTo(T X) 加 入 C 中 ; 

until 不 再 有 新 的 项 集 加 入 到 C 中 ; 





图 4-40 ”为 文法 G′ 构造 LR〈1) 项 集 族 的 算法 
考虑 下 面 的 增 广 文法 : 
S' 一 S 
SSCC (4.55) 
Co»>cCld 
我 们 首先 计算 { [S's:S，$]} 的 闭 包 。 在 求 闭 包 时 ， 我 们 将 项 [S 
一:'S$，$] 和 过 程 CLOSURE 中 的 项 LA sa:BB，aj 相 匹配 。 也 残 是 


说 ，A=S'，a=E，B=S，B=E 和 a=$。 销 数 CLOSURE 告 诉 我 们 ， 对 于 每 
个 产生 式 B~Y 和 FIRST (Ba) 中 的 终结 符号 b， 将 项 [Bo:y，bj]」 加 入 








到 闭 包 中 。 对 于 当前 的 文法 ，B ~Y 束 是 s~ CC， 并 且 因 为 p 是 E 且 a 是 
$，b 只 能 是 $。 因 此 ， 我 们 增加 [S~ :CC，$j] 。 


我 们 继续 计算 闭 包 ， 对 于 在 FIRST (C$) 中 的 b， 加 入 所 有 的 项 
[Cs:y，bj」。 也 就 是 说 , 将 [Ss:CC，$] 和 [A a:BB，aj] 相 匹 
配 ， 我 们 有 A=S，a=E€，B=C，PB=C 且 a=$。 因 为 C 不 会 推导 出 空 串 ， 所 
以 FIRST (C$) =FIRST (C) 。 因 为 FIRST (C) 包含 终结 符号 c 和 d， 所 
以 我 们 加 A 入 项 :LCG Es [GE ds .LCiel 和 
L[LC~:d，dj] 。 在 这 些 项 中 ， 紧 靠 在 点 右边 的 都 不 是 非 终 结 符号 ， 因 此 
我 们 已 经 完成 了 第 一 个 LR (1) 项 集 。 这 个 初始 项 集 是 : 


[0: SE5 9， $ 





SS 一 :CC，$ 
Co:cC, Cd 


为 表示 方便 ， 我 们 省 略 了 方 括号 ， 并 且 使 用 [C- 'cC，cdj 作为 
两 个 项 LC-cC， cj 和 [C-:cC，dj 的 缩写 。 


现在 我 们 对 不 同 的 X 值 计算 GOTO 〈I0，X) 。 对 于 X=S， 我 们 必须 
求 [S'S:，$] 的 闭 包 。 因 为 点 在 最 右 端 ， 所 以 无 法 加 入 新 的 项 。 因 此 
我 们 得 到 下 一 个 项 集 
1: 9 一 9.， $ 


对 于 X=C， 我 们 求 [SC:C，$j」 闭 包 。 我 们 以 $ 作 为 第 二 个 分 量 加 入 C 
产生 式 ， 之 后 不 能 再 加 入 新 的 项 ， 得 到 : 


D: SSC:C, $ 
Co:cC, $ 
C—:d, $ 
接 下 来 ， 令 X=c。 我 们 必须 求 { [Cc:C，c/dj」} 的 闭 包 。 我 们 将 wd 作 


为 第 二 个 分 量 加 入 C 产 生 式 ， 得 到 : 
la: C—»c:C, Cd 
C—o:cC, Cd 
C—:d, Cd 
最 后 ， 令 X=d， 我 们 得 到 项 集 : 
L: Cod:, cd 


我 们 已 经 完成 了 I6 上 的 GOTO 函 数 。 我 们 没有 从 I 得 到 新 的 项 集 ， 但 是 I， 
有 相对 于 C、c 和 d 的 GOTO 后 继 。 对 于 GOTO (I,，C) ， 我 们 有 


IT: SCC.，$ 





它 不 需要 进行 用 包 运 算 。 为 了 计算 GOTO (I,，c) ， 我 们 对 
{ [Coc:C，$j」} 求 团 包 ， 得 到 


le: Coc:C, $ 
Co—:cC, $ 
Co:£d, $ 
请 注意 ，I6 和 I 只 在 第 二 个 分 量 上 有 所 不 同 。 我 们 会 经 常 看 到 一 个 
文法 的 多 个 LR (1) 项 集 具 有 相同 的 第 一 分 量 ， 但 第 二 分 量 不 同 。 当 我 
们 为 同一 个 文法 构造 规范 LR 〈0) 项 集 族 时 ， 每 一 个 LR(0) 项 集 将 和 
一 个 或 多 个 LR (1) 项 集 的 第 一 分 量 集合 完全 一 致 。 我 们 将 在 讨论 
LALR 语 法 分 析 技 术 的 时 候 更 加 深入 地 讨论 这 个 现象 。 
继续 计算 DL 的 GOTO 函 数 ，GOTO (1,，d) 就 是 
1»: Cod-:，, $ 


现在 转 而 处 理 I3，Is 在 c 和 d 上 的 GOTO 值 分 别 是 3 和 14。GOTO (J;， 


1 和 Is 没有 GOTO 值 ， 因 为 它们 的 项 中 的 点 都 在 最 右 端 。I6 在 c 和 d 上 的 
GOTO 值 分 别 是 I6 和 I7， 而 GOTO (I6，C) 是 


1o: Gc, $ 


其 余 的 各 个 项 集 都 没有 GOTO 值 ， 因 此 我 们 完成 了 所 有 项 集 的 计 
算 。 图 4-41 显 示 了 这 10 个 项 集 和 它们 之 间 的 goto 关 系 。 


























了 3 
Ce:C,c/d 
CGS"cCse/d 
C 一 :dc/d 


C 一 dc/d 
图 4-41 文法 (4.55) 的 G0T0 图 


4.7.3 规范 LR (1) 语法 分 析 表 


现在 我 们 给 出 根据 LR (1) 项 集 构 造 LR〈1) 的 ACTION 和 GOTO 函 





数 的 规则 。 和 前 面 一 样 ， 这 些 函 数 将 用 一 个 表 来 表示 ， 只 是 表格 条 目 中 
的 值 有 所 不 同 。 


规范 LR 语法 分 析 表 的 构造 。 
输入 : 一 个 增 广 文法 G'。 
输出 : G' 的 规范 LR 语 法 分 析 表 的 函数 ACTION 和 GOTO。 
方法 : 
1) 构造 G' 的 LR(1) 项 集 族 C'={J0, 1，...，}。 


2) 语法 分 析 器 的 状态 i 根据 [构造 得 到 。 状 态 i 的 语法 分 析 动 作 按 照 
下 面 的 规则 确定 : 


QO 如果 [A- orap，b] 在 1 中 ， 并 且 GOTO (Hi，a) =I,， 那 么 将 
ACTION [iaj] 设置 为 “移入 j”。 这 里 a 必须 是 一 个 终结 符号 。 


@ 如 果 [A a:，aj 在 I 中 且 AzS'， 那 么 将 ACTION [i，a] 设置 
为 “规约 A -a”。 


(8) 如 果 [S'S:，$」 在 I 中 ， 那 么 将 ACTION [Li，$] 设置 为 “ 接 





和 

如 琳 根 据 上 述 规 则 会 产生 任何 冲突 动作 ， 我 们 就 说 这 个 文法 不 是 
LR 1) 的。 在 这 种 情况 下 ， 这 个 算法 无 法 为 该 文法 生成 一 个 语法 分 析 
器 。 


3) 状态 i 相对 于 各 个 非 终 结 符号 A 的 goto 转 换 按照 下 面 的 规则 构造 
得 到 : 如 果 GOTO (1;，A) =T， 那 么 GOTO [i,，Aj] =j。 


4) 所 有 没有 按照 规则 〈2) 和 3) 定义 的 分 析 表 条 目 都 设 为 “ 报 


5) 语法 分 析 需 的 初始 状态 是 由 包含 [S'S，$j」 的 项 集 构造 得 到 
的 状态 


4UDN Oo 


由 算法 4.56 生 成 的 语法 分 析 动 作 和 GOTO 函 数组 成 的 表 称 为 规范 
LR (1) 语法 分 析 表 。 使 用 这 个 表 的 LR 语法 分 析 器 称 为 规范 LR (1) 语 
法 分 析 器 。 如 果 语 法 分 析 动 作 函 数 中 不 包含 多 重 定义 的 条 目 ， 那 么 给 定 
ee 
将 举 略 “″ (1) ”。 


罗汉 文法 (4.55) 的 规范 语法 分 析 表 如 图 4-42 所 示 。 产 生 式 1、2 和 
3 分 刑 是 SCC，C-cC 和 Cd。 









ACTION GOTO 
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s6 8s7 
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图 4-42 文法 (4.55) 的 规范 LR 语 法 分 析 表 


每 个 SLR(1) 文法 都 是 LR (1) 文法 。 但 是 对 于 一 个 SLR (1) 文 
法 而 言 ， 规 范 LR (1) 语法 分 析 器 的 状态 要 比 同一 文法 对 应 的 SLR 语 法 
分 析 器 的 状态 多 。 前 一 个 例子 中 的 文法 是 SLR 的 ， 它 的 SLR 语 法 分 析 器 
有 七 个 状态 ， 相 比 之 下 ， 图 4-42 中 有 十 个 状态 。 


4.7.4 构造 LALR 语 法 分 析 表 


现在 我 们 介绍 最 后 一 种 语法 分 析 器 构造 方法 ， 即 LALR ( 同 前 看 - 
LR) 技术 。 这 个 方法 经 常 在 实践 中 使 用 ， 因 为 用 这 种 方法 得 到 的 分 析 
表 比 规范 LR 分 析 表 小 很 多 ， 而 且 大 部 分 和 常见 的 程序 设计 语言 构造 都 可 
以 方便 地 使 用 一 个 LALR 文 法 表示 。 对 于 SLR 文 法 ， 这 一 点 也 基本 成 





立 ， 只 是 仍然 存在 少量 构造 不 能 够 方便 地 使 用 SLR 技 术 来 处 理 〈 例 如 ， 
见 例 4.48) 。 


我 们 对 语法 分 析 器 的 大 小 做 一 下 比较 。 一 个 文法 的 SLR 和 LALR 分 
析 表 总 是 具有 相同 数量 的 状态 ， 对 于 像 C 这 样 的 语言 来 说 ， 通 常 有 几 百 
个 状态 。 对 于 同样 大 小 的 语言 ， 规 范 LR 分 析 表 通常 有 几 千 个 状态 。 
2 
To 


为 了 介绍 LALR 技 术 ， 让 我 们 再 次 考虑 文法 (4.55) 。 该 文法 的 
LR〈1) 项 集 如 图 4-41 所 示 。 让 我 们 查看 两 个 看 起 来 差不多 的 状态 ， 比 
如 14 和 Iz。 它 们 都 只 有 一 个 项 ， 其 第 一 个 分 量 都 是 C d+。 在 4 中， 癌 前 
看 符号 是 c 或 4d， 在 1; 中 ，$ 是 唯一 的 癌 前 看 符号 。 











为 了 了 解 L 和 I 在 语法 分 析 器 中 担负 的 不 同 角 色 ， 请 注意 这 个 文法 
生成 了 正则 语言 cdc d。 当 读 入 输入 cc...cdcc...cd 的 时 候 ， 语 法 分 析 器 
首先 将 第 一 组 c 以 及 跟 在 它们 后 面 的 d 移 入 栈 中 。 语 法 分 析 器 在 读 入 d 之 
后 进入 状态 4。 然 后 ， 当 下 一 个 输入 符号 是 c 或 d 时 ， 语 法 分 析 器 按照 产 
生 式 C dd 进 行 一 次 归 约 。 要 求 c 或 d 跟 在 后 面 是 有 道理 的 ， 因 为 它们 可 能 
是 c'd 中 的 串 的 开始 符号 。 如 果 $ 跟 在 第 一 个 d 后 面 ， 我 们 就 有 形 如 ccd 的 
输入 ， 而 它们 不 在 这 个 语言 中 。 如 果 $ 是 下 一 个 输入 符号 ， 状 态 4 就 会 正 
确 地 报告 一 个 错误 。 


语法 分 析 器 在 读 入 第 二 个 d 之 后 进入 状态 7。 然 后 ， 语 法 分 析 器 必须 
在 输入 中 看 到 $， 和 否则 和 输入 开头 的 符号 串 就 不 具有 cvdc'd 的 形式 。 因 此 
状态 7 应 该 在 输入 为 $g 时 按照 C- d 进 行 归 约 ， 而 在 输入 为 或 d 的 时 候 报告 
站 误 ，。 

现在 ， 我 们 将 I 和 1 葵 换 为 zz， 即 4 和 1 的 并 集 。 这 个 项 集 包含 了 
[Cd ，oyd'$] 所 代表 的 三 个 项 。 原 来 在 输入 4 上 从 I、D、D 到 达 L 或 
1 的 goto 关 系 现在 都 到 达 14j。 状 态 47 在 所 有 输入 上 的 动作 都 是 归 约 。 这 
个 经 过 修改 的 语法 分 析 器 行为 在 本 质 上 和 原 分 析 器 一 样 。 虽 然 在 有 些 情 
况 下 ， 原 分 析 器 会 报告 错误 ， 而 新 分 析 器 却 将 d 归 约 为 C。 比 如 ， 在 处 理 
ccd 或 cdcdc 这 样 的 输入 时 就 会 出 现 这 样 的 情况 。 新 的 分 析 器 最 终 能 够 找 
到 这 个 错误 ， 实 际 上 这 个 错误 会 在 移入 任何 新 的 答 入 符号 之 前 就 被 发 
ho 


更 一 般 地 说 ， 我 们 可 以 寻找 具有 相同 核心 (core) 的 LR (1) 项 
集 ， 并 将 这 些 项 集合 并 为 一 个 项 集 。 所 谓 项 集 的 核心 就 是 其 第 一 分 量 的 
集合 。 比 如 在 图 4-41 中 ，14 和 I 就 是 这 样 一 对 项 集 ， 它 们 的 核心 是 
{Cd}。 类 似 地 ，I3 和 I6 是 男 一 对 这 样 的 项 集 ， 它 们 的 核心 是 
{C-cC，C-:cC，C-:d}。 男 外 ， 还 有 一 对 项 集 I6 和 I6， 它 们 的 公共 核 
心 是 {CcC:}。 请 注意 ， 一 般 而 言 ， 一 个 核心 就 是 当前 正 处 理 的 文法 的 
LR (0) 项 集 ， 一 个 LR (1) 文法 可 能 产生 多 个 具有 相同 核心 的 项 集 。 


因为 GOTO 〈I，X) 的 核心 只 由 I 的 核心 决定 ， 一 组 被 合并 的 项 集 的 
GOTO 目 标 也 可 以 被 合并 。 因 此 ， 当 我 们 合并 项 集 时 可 以 相应 地 修改 
人 

民 错 动作 。 


假设 我 们 有 一 个 LR 〈1) 文法 ， 也 就 是 说 ， 这 个 文法 的 LR (1) 项 
集 没 有 产生 语法 分 析 动 作 冲 突 。 如 果 我 们 将 所 有 有 具有 相同 核心 的 状态 蔡 
换 为 它们 的 并 集 ， 那 么 得 到 的 并 集 有 可 能 产生 冲突 。 但 是 因为 下 面 的 原 
因 ， 这 种 情况 不 大 可 能 发 生 : 假设 在 并 集中 有 一 个 项 LA a+:，aj] 要 求 
按照 A a 进行 归 约 ， 同 时 男 一 个 项 [BB'ay，bj」 要求 进 行 移 入 ， 那 么 
就 会 出 现在 向 前 看 符号 a 上 的 冲突 。 此 时 必然 存在 某 个 被 合并 进来 的 项 
集中 包含 项 LA a*，aj] ， 同 时 因为 所 有 这 些 状态 的 核心 都 是 相同 的 ， 
所 以 这 个 被 合并 进来 的 项 集中 必然 还 包含 项 [BBay，cj]」 ， 其 中 c 是 
某 个 终结 符号 。 如 果 这 样 的 话 ， 这 个 状态 中 同样 也 有 在 输入 a 上 的 移入 / 
归 约 冲突 ， 因 此 这 个 文法 不 是 我 们 假设 的 LR (1) 文法 。 因 此 ， 合 并 具 
有 相同 核心 的 状态 不 会 产生 出 原 有 状态 中 没有 出 现 的 移入 / 归 约 冲突 ， 
因为 移入 动作 仪 由 核心 决定 ， 不 考虑 问 前 看 符号 。 


然而 ， 如 下 面 的 例子 所 示 ， 合 并 项 集 可 能 会 产生 归 约 / 归 约 冲突 。 
考虑 文法 
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SaAdlbBdlaBe|lbAe 
A-oc 


Boc 


该 文法 产生 四 个 串 acd、ace、bcd 和 bce。 读 者 可 以 构造 出 这 个 文法 
的 LR (1) 项 集 ， 以 验证 该 文法 是 LR (1) 的 。 完 成 这 些 工作 之 后 ， 我 
们 发 现 项 集 { [Ac dj 》 [Boc:., e | } 是 可 行 前 级 ac 的 有 效 项 ， 
{ [AJc, e] ，[B-,c:， dj] } 是 bc 的 有 效 项 。 这 两 个 项 集 都 没有 冲 
突 ， 并 且 它 们 的 核心 是 相同 的 。 然 而 ， 它 们 的 并 集 ， 即 


A—sc:, d/e 
Boc:, d/e 


产生 了 一 个 归 约 / 归 约 冲突 ， 因 为 当 输 入 为 d 或 e 的 时 候 ， 这 个 合并 项 集 
既 要 求 按照 A ~ c 进 行 归 约 ， 又 要 求 按照 B ~ c 进 行 归 约 。 


我 们 将 给 出 两 个 LALR 分 析 表 构造 算法 ， 现 在 来 介绍 其 中 的 第 一 
个 。 这 个 算法 的 基本 思想 是 构造 出 LR〈1) 项 集 ， 如 果 没 有 出 现 冲 突 ， 
就 将 具有 相同 核心 的 项 集合 并 。 然 后 我 们 根据 合并 后 得 到 的 项 集 族 构造 
语法 分 析 表 。 我 们 将 要 描述 的 方法 的 主要 用 途 是 定义 LRLA (1) 文法 。 
ee (1) 项 集 族 需要 的 空间 和 时 间 太 多 ， 因 此 很 少 在 实践 中 使 


一 个 简单 ， 但 空间 需求 大 的 LALR 分 析 表 的 构造 方法 。 
输入 : 一 个 增 广 文法 G'。 


输出 : 文法 G' 的 LALR 语 法 分 析 表 函数 ACTION 和 GOTO。 








a 

1) 构造 LR (1) 项 集 族 C={Io, I，...， 了 }。 

2) 对 于 LR〈1) 项 集中 的 每 个 核心 ， 找 出 所 有 有 具有 这 个 核心 的 项 
集 ， 并 将 这 些 项 集 蔡 换 为 它们 的 并 集 。 

3) 令 C'={Jo， 厂 ，.…，J 匣 } 是 得 到 的 LR《〈1) 项 集 族 。 状 态 i 的 语法 
分 析 动 作 是 按照 和 算法 4.56 中 的 方法 根据 J 构造 得 到 的 。 如 果 存 在 一 个 


分 析 动 作 冲 突 ， 这 个 算法 就 不 能 生成 语法 分 析 器 ， 这 个 文法 束 不 是 
LALR (1) 的 。 











4) GOTO 表 的 构造 方法 如 下 。 如 果 J 是 一 个 或 多 个 LR〈1) 项 集 的 
并 集 ， 也 就 是 说 J=TUILU...UITH， 那 么 GOTO (T,X) ，GOTO (J， 
X) ，...，GOTO (RE，X) 的 核心 是 相同 的 ， 因 为 II、L、..……、 五 具有 相 
同 的 核心 。 令 K 是 所 有 和 GOTO (JI，X) 具有 相同 核心 的 项 集 的 并 集 ， 
那么 GOTO (J，X) =K。 


算法 4.59 生 成 的 分 析 表 称 为 G 的 LALR 语 法 分 析 表 。 如 果 没 有 语法 分 
析 动 作 冲 突 ， 那 么 给 定 的 文法 就 称 为 LALR (1) 文法 。 在 第 (3) 步 中 
构造 得 到 的 项 集 族 被 称 为 LALR (1) 项 集 族 。 


再 次 考虑 文法 (4.55) 。 该 文法 的 GOTO 图 已 经 显示 在 图 4-41 
。 找 们 前 面 提 到 过 ， 有 三 对 可 以 合并 的 项 集 。Is 和 16 被 蔡 换 为 它们 的 
并 集 : 





Is3e: Coc:C, c/d/$ 
C—»:cC, c/d/$ 
Cd, c/d/$ 
1 和 1I7 被 蔡 换 为 它们 的 并 集 : 
L: Cod:, co/d/$ 
I8 和 Jo 被 替换 为 它们 的 并 集 : 


TI89: 人 @ Gl Cd/$ 





这 些 压 缩 过 的 项 集 的 LALR 动 作 和 GOTO 函 数 显 示 在 图 4-43 中 。 


要 了 解 如 何 计算 GOTO 关 系 ， 考 虑 GOTO (I36，C) 。 在 原来 的 
LR (1) 项 集中 ，GOTO (I3，C) =Is， 而 现在 Is 是 Is 的 一 部 分 ， 因 此 我 
们 令 GOTO (I36，C) 为 189。 如 果 我 们 考虑 IE， 即 I36 的 另 一 部 分 ， 我 们 
仍然 可 以 得 到 相同 的 结论 。 也 就 是 说 ，GOTO (I6，C) =Io，Io 现 在 是 
Is9 的 一 部 分 。 再 举 一 个 例子 。 考 虑 GOTO (I,，c) ， 即 在 状态 I[, 上 输入 
为 ce 时 执行 移入 之 后 的 状态 。 在 原来 的 LR(1) 项 集中 ，GOTO 〈L， 


C) =I6。 因 为 I6 现 在 是 I36 的 一 部 分 ， 所 以 GOTO (I，,，c) 变 成 了 I36。 
此 ， 图 4-43 中 对 应 于 状态 2 和 输入 c 的 条 目 被 设置 为 S536， 表示 移入 并 将 状 
态 36 压 入 栈 中 。 


ACTION GOTO 





图 4-43 ”例子 4.54 的 文法 的 LALR 分 析 表 


当 处 理 语 言 ctdc*d 中 的 一 个 串 时 ， 图 4-42 的 LR 语法 分 析 器 和 图 4-43 
的 LALR 语 法 分 析 器 执行 完全 相同 的 移入 和 归 约 动作 序列 ， 尽 管 栈 中 状 
态 的 名 字 有 所 不 同 。 比 如 ， 在 LR 语法 分 析 器 将 I 或 I6 压 入 栈 中 时 ， 
LALR 语 法 分 析 器 将 se 压 入 栈 中 。 这 个 关系 对 于 所 有 的 LALR 文 法 都 成 
人 在 处 理 正 确 的 输入 时 ，LR 语 法 分 析 器 和 LALR 语 法 分 析 器 将 相互 模 
以 。 





在 处 理 错误 的 输入 时 ，LALR 语 法 分 析 器 可 能 在 LR 语法 分 析 器 报错 
之 后 继续 执行 一 些 归 约 动作 。 然 而 ，LALR 语 法 分 析 器 决 不 会 在 LR 语法 
分 析 器 报错 之 后 移入 任何 符号 。 比 如 ， 在 输入 为 ccd 且 后 面 跟 有 $ 时 ， 图 
4-42 的 LR 语法 分 析 器 将 


0334 


压 入 栈 中 ， 并 且 在 状态 4 上 发 现 一 个 错误 ， 因 为 下 一 个 输入 符号 是 $ 而 状 
态 4 在 $ 上 的 动作 为 报错 。 相 应 地 ， 图 4-43 中 的 LALR 语 法 分 析 器 将 执行 
对 应 的 操作 ， 将 


0 36 36 47 


压 入 栈 中 。 但 是 状态 47 在 输入 为 $ 时 的 动作 为 归 约 Cd。 因 此 ，LALR 
语法 分 析 器 将 把 栈 中 内 容 改 为 


0 36 36 89 
现在 ， 状 态 89 在 输入 $ 上 的 动作 为 归 约 CcC。 栈 中 内 容 变 为 
0 36 89 
此 时 仍 要 求 进行 一 个 类 似 的 归 约 ， 得 到 栈 
02 


最 后 ， 状 态 2 在 输入 $ 上 的 动作 为 报错 ， 因 此 现在 发 现 了 这 个 错误 。 
4.7.5 ”高 效 构造 LALR 语 法 分 析 表 的 方法 


我 们 可 以 对 算法 4.59 进 行 多 处 修改 ， 使 得 在 创建 LALR(1) 语法 分 
析 表 的 过 程 中 不 需要 构造 出 完整 的 规范 LR(1) 项 集 族 。 


。 首先 ， 我 们 可 以 只 使 用 内 核 项 来 表示 任意 的 LR (0) 或 LR (1) 项 
集 。 也 就 是 说 ， 只 使 用 初始 项 [S's:Sj] 或 [SS 一:S$，$] 以 及 那些 
点 不 在 产生 式 体 左 端的 项 来 表示 项 集 。 

。 我 们 可 以 使 用 一 个 “传播 和 自发 生成 ?的 过 程 〈 我 们 稍 后 将 描述 这 个 
方法 ) 来 生成 向 前 看 符号 ， 根 据 LR (0) 项 的 内 核 生 成 LALR (1) 
项 的 内 核 。 

。 如 果 我 们 有 了 LALR (1) 内 核 ， 我 们 可 以 使 用 图 4-40 中 的 
CLOSURE 函 数 对 各 个 内 核 求 财 包 ， 然 后 再 把 这 些 LALR (1) 项 集 
当 作 规范 LR (1) 项 集 族 ， 使 用 算法 4.56 来 计算 分 析 表 和 条目， 从 而 
得 到 LALR (1) 语法 分 析 表 。 


我 们 将 使 用 例子 4.48 中 的 非 SLR 文 法 作为 一 个 例子 ， 说 明 高 效 
er (1) 语法 分 析 表 构造 方法 。 下 面 我 们 重新 给 出 这 个 文法 的 增 广 
形 子 有 
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S_,L=R|R 
L-_,*R |id 
R_L 


这 个 文法 的 完整 LR(0) 项 集 显 示 在 图 4-39 中 。 这 些 项 集 的 内 核 显 示 在 
图 4-44 中 。 





图 4-44 文法 (4.49) 的 LR (0) 项 集 的 内 核 


现在 我 们 必须 给 这 些 用 内 核 表 示 的 LR 〈0) 项 加 上 正确 的 向 前 看 符 
写 ， 创建 出 LALR (1) 项 集 的 内 核 。 在 两 种 情况 下 ， 向 前 看 符号 b 可 以 
添加 到 某 个 LALR (1) 项 集 J 中 的 LR 〈0) 项 By:56 之 上 : 


1) 存在 一 个 包含 内 核 项 LA a*B，aj 的 项 集 I， 并 且 
J=GOTO (I，X) 。 不 管 a 为 何 值 ， 在 按照 图 4-40 的 算法 构造 


GOTO (CLOSURE ({ [A—aB, a] }, X) 
时 得 到 的 结果 中 总 是 包含 [BY6，b] 。 对 于 B 一 y-6 而 言 ， 这 个 向 前 
看 符号 b 被 称 为 自发 生成 的 。 作 为 一 个 特殊 情况 ， 回 前 看 符号 $ 对 于 初始 
项 集中 的 项 [S ~-:S] 而 言 是 自发 生成 的 。 
2) 其 余 条 件 和 《1) 相同 ， 但 是 a=b， 且 按照 图 4-40 所 示 计 算 


GOTO (CLOSURE ({ LA-~oB，b] }) ，X) 得 到 的 结果 中 包含 
LB-Y8，bj] 的 原因 是 项 A a:B 有 一 个 向 前 看 符号 b。 在 这 种 情况 下 ， 











我 们 说 向 前 看 符号 从 I 的 内 核 中 的 A- ox'B 传 播 到 了 J 的 内 核 中 的 B -~ Y'6 
上 。 请 注意 ， 传 播 基 系 并 不 取决 于 东 个 特定 的 癌 前 看 符号 ， 要 么 所 有 的 
回 前 看 符号 都 从 一 个 项 传播 到 另 一 个 项 ， 要 么 都 不 传播 。 


我 们 需要 确定 每 个 LR〈0) 项 集中 自发 生成 的 向 前 看 符号 ， 同 时 也 
要 确定 向 前 看 符号 从 哪些 项 传播 到 了 哪些 项 。 这 个 检测 实际 上 相当 简 
单 。 令 # 为 一 个 不 在 当前 文法 中 的 符号 。 令 A~ oa'.B 为 项 集 I 中 的 一 个 内 核 
LR (0) 项 。 对 每 个 X 计 算 J=GOTO (CLOSURE ({ [A-a:B， 
#] }) ，X) 。 对 于 J 中 的 每 个 内 核 项 ， 我 们 检查 它 的 疝 前 看 符号 集合 。 
如 果 # 是 它 的 辐 前 看 符号 ， 那 么 加 前 看 符号 就 从 A 一 a*B 传 播 到 了 这 个 
项 。 所 有 其 他 的 回 前 看 符号 都 是 自发 生成 的 。 这 个 思想 在 下 面 的 算法 中 
被 精确 地 表达 了 出 来 。 这 个 算法 还 用 到 了 一 个 性 质 : J 中 的 所 有 内 核 项 
中 点 的 左边 都 是 X， 也 就 是 说 ， 它 们 必然 是 形 如 B -YX:6 的 项 。 


确定 向 前 看 符号 。 
输入 : 一 个 LR《〈0) 项 集 I 的 内 核 K 以 及 一 个 文法 符号 X。 


输出 : 由 I 中 的 项 为 GOTO (I，X) 中 内 核 项 自发 生成 的 向 前 看 符 
号 ， 以 及 I 中 将 其 向 前 看 符号 传播 到 GOTO (I，X) 中 内 核 项 的 项 。 


方法 : 算法 在 图 4-45 中 给 出 。 

















for ( KK 中 的 每 个 项 4 一 aG ) { 
J := CLOSURE({[A — a:6,#]} ); 
if( [一 7X6,a] 在 J 中 ,并 且 a 不 等 于 ## ) 
断定 COTO(I,X) 中 的 项 是 ?XX 的 向 前 看 符号 0 





是 自发 生成 

半 ( [B 二 YX6,#] 在 J 中 ) 
断定 向 前 看 符号 从 了 中 的 项 4 一 a.C 传 播 到 了 GoTo(DZ, 和 X) 中 的 项 
ByX6 之 上 ; 











图 4-45 ”发 现 传播 的 和 自发 生成 的 向 前 看 符号 


现在 我 们 可 以 把 回 前 看 符号 附加 到 LR (0) 项 集 的 内 核 上 ， 从 而 得 
到 LALR (1) 项 集 。 首 先 ， 我 们 知道 $ 是 初始 LR (0) 项 集中 的 S'S 的 
问 前 看 符号 。 算 法 4.62 给 出 了 所 有 上 自发 生成 的 癌 前 看 符号 。 将 所 有 这 些 
回 前 看 符号 列 出 之 后 ， 我 们 必须 让 它们 不 断 传 播 ， 直 到 不 能 继续 传播 为 
止 。 有 很 多 方法 可 以 实现 这 个 传播 过 程 。 从 某 种 意义 上 说 ， 所 有 这 些 方 














法 都 跟踪 已经 传播 到 茶 个 项 但 是 尚未 传播 出 去 的 “新 ”加 前 看 符号 。 下 面 
的 算法 描述 了 一 个 将 回 前 看 符号 传播 到 所 有 项 中 的 技术 。 


LALR (1) 项 集 族 的 内 核 的 高 效 计算 方法 。 
输入 : 一 个 增 广 文法 G'。 
输出 : 文法 G' 的 LALR (1) 项 集 族 的 内 核 。 
aA 


1) 构造 G 的 LR(0) 项 集 族 的 内 核 。 如 果 空 间 资 源 不 紧张 ， 最 简单 
的 方法 是 像 4.6.2 节 那样 构造 LR(0) 项 集 ， 然 后 再 删除 其 中 的 非 内 核 
项 。 如 果 内 存 空间 非常 紧张 ， 我 们 可 以 只 保存 各 个 项 集 的 内 核 项 ， 并 在 
计算 一 个 项 集 I 的 GOTO 之 前 先 计算 I 的 闭 包 。 


2) 将 算法 4.62 应 用 于 每 个 LR (0) 项 集 的 内 核 和 每 个 文法 符号 又 ， 
确定 GOTO (I，X) 中 各 内 核 项 的 哪些 回 前 看 符号 是 自发 生成 的 ， 并 确 
定 回 前 看 符号 从 I 中 的 哪个 项 被 传播 到 GOTO 〈I，X) 中 的 内 核 项 上 。 


3) 初始 化 一 个 表格 ， 表 中 给 出 了 每 个 项 集中 的 每 个 内 核 项 相关 的 
问 前 看 符号 。 节 初 ， 每 个 项 的 同 前 看 符号 只 包括 那些 被 我 们 在 步骤 
(2) 中 确定 为 自发 生成 的 符号 。 


4) 不 断 扫 描 所 有 项 集 的 内 核 项 。 当 我 们 访问 一 个 项 计 y， 使 用 步骤 
(2) 中 得 到 的 、 用 表格 表示 的 信息 ， 确 定 i 将 它 的 向 前 看 符号 传播 到 了 
哪些 内 核 项 中 。 项 i 的 当前 癌 前 看 符号 集合 被 加 到 和 这 些 补 传播 的 内 核 
项 相关 联 的 各 前 看 符号 集合 中 。 我 们 继续 在 内 核 项 上 进行 扫描 ， 直 到 没 
有 新 的 回 前 看 符 写 被 传播 为 止 。 


ed 我 们 为 例子 4.61 的 文法 构造 LALR (1) 项 集 的 内 核 。 这 个 文法 
JLR (0) 项 集 的 内 核 如 网 4-44 所 示 。 当 我 们 将 算法 4.62 应 用 于 项 集 Io 的 
内 核 时 ， 我 们 首先 计算 CLOSURE ({ [S'S, #j] }) ， 即 
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在 这 个 财 包 的 项 中 ， 我 们 看 到 两 个 项 中 的 向 前 看 符号 = 是 自发 生成 
的 。 第 一 个 项 是 L -,-*R。 这 个 项 中 点 的 右边 是 *， 它 生成 了 [L-*:R， 
=] 。 也 就 是 说 ，= 是 中 LL 一 *:R 的 自发 生成 的 向 前 看 符号 。 类 似 地 ， 
[L -id，=] 告诉 我 们 = 是 I 中 Lid: 的 自发 生成 的 向 前 看 符号 。 




















因为 # 是 这 个 财 包 中 六 个 项 的 回 前 看 符号 ， 所 以 我 们 确定 Io 中 的 项 $S 
' 一 'S 将 它 的 同 前 看 符 吕 传播 到 下 面 的 六 个 项 中 : 


站 中 的 9 一 9 了 中 的 7 一 +* 民 
L, 中 的 SL， =R /1; 中 的 [一 id ，: 
二 中 的 SR . 志 市 的 加 < 过。 


在 图 4-47 中 ， 我 们 说 明了 算法 4.63 的 步骤 (3) 和 (4) 。 标 号 为 
INIT 的 列 给 出 了 各 个 内 核 项 的 自发 生成 的 向 前 看 符号 。 这 些 符 号 中 只 包 
括 前 面 讨论 过 的 = 的 两 次 出 现 ， 以 及 初始 项 S'S 的 自发 生成 的 同 前 看 
符号 $。 

在 第 一 趟 扫描 中 ， 向 前 看 符号 $ 从 I0 中 的 S'S 传播 到 图 4-46 中 列 出 
的 六 个 项 上 。 向 前 看 符号 = 从 I 中 的 L 一 *:R 传 播 到 1; 中 的 L -*R: 和 Ig 中 的 
RL 上 。 它 还 传递 到 它 自身 以 及 I 中 的 Lid+ 上 ， 但 是 这 些 向 前 看 符 
号 本 来 就 已 经 存在 了 。 在 第 二 和 第 三 趟 扫描 时 ， 唯 一 被 传播 的 新 向 前 看 
符号 是 $， 它 在 第 二 趟 扫 摘 时 被 传播 到 I 和 了 4 的 后 继 中 ， 并 在 第 三 趟 扫 搞 
时 到 达 Ie 的 后 继 中 。 在 第 四 趟 扫描 时 没有 新 的 向 前 看 符号 被 传播 ， 因 此 
最 终 的 向 前 看 符号 集合 如 图 4-47 最 右边 的 列 所 示 。 

















图 4-46 ”向 前 看 符号 的 传播 


向 前 看 符号 
初始 值 | 第 一 霄 | 第 二 趟 | 第 三 趟 | 





图 4-47 ”向 前 看 符号 的 计算 


请 注意 ， 在 例 4-48 中 ， 使 用 SLR 方 法 时 发 现 的 移入 / 归 约 冲突 在 使 用 
LALR 技 术 时 消失 了 。 虽 然 1, 中 的 SL:=R 生 成 了 在 输入 = 上 的 移入 动 
作 ， 但 是 ,中 RL 的 同 前 看 符 写 只 包括 $， 因 此 两 者 之 间 不 再 有 冲突 。 


4.7.6 ”LR 语法 分 析 表 的 压缩 


一 个 典型 的 具有 50 一 100 个 终结 符号 和 100 个 产生 式 的 程序 设计 语言 
文法 的 LALR 语 法 分 析 表 中 可 能 包含 几 百 个 状态 。 分 析 表 的 动作 函数 常 
常 包含 20000 多 个 条 目 ， 每 个 条 目 至 少 需 要 8 个 二 进 制 位 进行 编码 。 对 于 
小 型 设备 ， 有 一 个 比 二 维 数组 更 加 高 效 的 编码 方法 是 很 重要 的 。 我 们 将 
简短 地 描述 一 些 可 以 用 于 压缩 LR 语 法 分 析 表 中 的 ACTION 字 段 和 GOTO 
字段 的 技术 。 


一 个 可 用 于 压缩 动作 字段 的 技术 所 基于 的 原理 古 动作 表 中 通 币 有 很 











多 相同 的 行 。 比 如 ， 图 4-42 中 的 状态 0 和 3 就 有 相同 的 动作 条 目 ， 状 态 2 
和 6 也 是 这 样 。 因 此 ， 如 果 我 们 为 每 个 状态 创建 一 个 指 癌 一 维 数组 的 指 
针 ， 我 们 就 可 以 节省 可 观 的 空间 ， 而 付出 的 时 间 代 价 却 很 小 。 有 具有 相同 
动作 的 状态 的 指针 指向 相同 的 位 置 。 为 了 从 这 个 数组 获取 信息 ， 我 们 给 
各 个 终结 符号 赋予 一 个 编号 ， 编 号 范围 为 从 堆 开 始 到 终结 符号 总 数 减 

一 。 对 于 每 个 状态 ， 这 个 整数 编写 将 作为 从 指针 值 开始 的 偏 移 量 。 在 一 
个 给 定 的 状态 中 ， 第 i 个 终结 符号 对 应 的 语法 分 析 动 作 可 以 在 该 状态 的 

指针 值 之 后 的 第 i 个 位 置 上 找到 。 


如 琳 为 每 个 状态 创建 一 个 动作 列表 ， 我 们 可 以 获得 更 高 的 空间 效 
率 ， 但 语法 分 析 器 会 变 慢 。 这 个 列表 由 《终结 符号 ， 动 作 ) 对 组 成 。 一 
个 状态 的 最 频 索 的 动作 可 以 放 在 列表 的 结尾 处 ， 并 且 我 们 可 以 在 这 个 对 
中 原本 放 终 结 符号 的 地 方 放 上 符号 “any”， 表 示 如 条 没有 在 列表 中 找到 
当前 输入 ， 那 么 不 管 这 个 输入 是 什么 ， 我 们 都 选择 这 个 动作 。 不 仅 如 
此 ， 为 了 使 得 一 行 中 的 内 容 更 加 一 致 ， 我 们 可 以 把 报错 条 目 安全 地 答 换 
为 规约 动作 。 对 错误 的 检测 会 稍 有 延 后 ， 但 仍 可 以 在 执行 下 一 个 移入 动 
作 之 前 发 现 错误 。 


考虑 图 4-37 的 语法 分 析 表 。 首 先 ， 请 注意 状态 0、4、6 和 7 的 动 
是 相同 的 。 我 们 可 以 用 下 面 的 列表 来 表示 它们 : 


符号 ”动作 
id $s5 
































any error 


状态 1 有 一 个 类 似 的 列表 : 


— SO 
$ acc 


Any error 


在 状态 2 中 ， 我 们 可 以 把 报错 条 目 丛 换 为 r2， 因 此 对 于 除 * 之 外 的 输 
入 都 按照 产生 式 2 进 行 归 约 。 因 此 状态 2 的 列表 是 


S 7/ 


any 世 


状态 3 只 有 报错 和 r4 条 目 。 我 们 可 以 把 前 者 蔡 换 为 后 者 ， 因 此 状态 3 
的 列表 只 有 一 个 对 (any，r4) 。 状 态 5、10 和 11 也 可 以 做 类 似 处 理 。 状 
态 8 的 列表 是 


十 SO 
) sll 


any error 


而 状态 9 的 列表 是 


米 sj 


any rl 


我 们 也 可 以 把 GOTO 表 编码 为 一 个 列表 ， 但 这 里 更 加 高 效 的 方法 是 
为 每 个 非 终结 符号 A 构 造 一 个 数 对 的 列表 。A 的 列表 中 的 每 个 对 形 如 
(当前 状态 ， 下 一 状态 ) ， 表 示 


GOTO [当前 状态 ，A] = 下 一 状态 


这 个 技术 很 有 用 ， 因 为 GOTO 表 的 一 列 中 常常 只 有 很 少 几 个 状态 。 
原因 是 对 于 某 个 非 终 结 符号 A 上 的 GOTO 目 标 状态 的 项 集中 必然 存在 某 
些 项 ， 这 些 项 中 A 紧 靠 在 点 的 左边 。 对 于 任意 两 个 不 同 的 文法 符号 X、 
Y， 没 有 哪个 GOTO 目 标 项 集 既 有 点 左边 为 X 的 项 ， 又 有 点 左边 为 Y 的 
项 。 因 此 ， 每 个 状态 最 多 只 出 现在 GOTO 表 的 一 列 中 。 


为 了 进一步 减少 使 用 的 空间 ， 我 们 注意 到 GOTO 表 中 的 报错 条 目 从 
来 都 不 会 被 查询 到 。 因 此 ， 我 们 可 以 把 每 个 报错 条 目 蔡 换 为 该 列 中 最 党 
用 的 非 报错 条 目 。 这 个 条 目 变 成 了 默认 选择 。 在 每 一 列 的 列表 中 ， 它 被 
表示 为 一 个 “当前 状态 ”字段 为 any 的 对 。 


人 a F 对 应 的 列 中 与 状态 7 对 应 的 条 目 是 10， 所 有 
条 目 所 对 应 的 要 么 是 3 要 么 报错 。 我 们 可 以 用 3 来 替换 报错 条 目 ， 
尖 F 列 创建 列表 























当前 状态 ”下 一 状态 
7 10 
any 3 


类 似 地 ，T 列 的 列表 可 以 是 
0 9 
any 2 


对 于 E 列 ， 我 们 可 以 选择 1 或 8 作为 默认 选择 。 这 两 种 选择 都 需要 两 
个 列表 条 目 。 比 如 ， 我 们 可 以 为 E 列 创建 如 下 列表 


4 8 
any | 


这 些小 例子 中 体现 出 来 的 空间 节省 效果 可 能 具有 误导 性 。 因 为 在 这 
个 例子 和 前 一 个 例子 中 创建 的 列表 中 的 条 目 数量 ， 再 加 上 从 状态 到 动作 
列表 的 指针 以 及 从 非 终 结 符 号 到 后 继 状 态 表 的 指针 ， 它 们 需要 的 空间 和 
图 4-37 中 的 矩阵 实现 方法 相 比 ， 并 没有 令 人 印象 深刻 的 空间 节省 效果 。 
但 是 对 于 现实 中 的 文法 ， 列 表 表 示 法 所 需要 的 空间 通常 比 和 矩阵 表示 法 所 
青空 间 少 10%。 在 3.9.8 节 中 讨论 的 用 于 有 和 穷 目 动机 的 表 压 缩 方法 也 可 以 
用 来 表示 LR 语 法 分 析 表 。 











4.7.7 4.7 节 的 练习 


练习 4.7.1: 为 练习 4.2.1 的 文法 S~SS+|SS*|a 构 造 
1) 规范 LR 项 集 族 。 


2) LALR 项 集 族 。 


练习 4.7.2: 对 练习 4.2.2 (1) ~ (7) 的 各 个 ( 增 广 ) 文法 重复 练习 
4.7.1。 


! 练习 4.7.3: 对 练习 4.7.1 的 文法 ， 使 用 算法 4.63， 根 据 该 文法 的 
LR (0) 项 集 的 内 核 构造 出 它 的 LALR 项 集 族 。 


! 练习 4.7.4: 说 明 下 面 的 文法 
S~AalbAcldclbda 
Ad 

是 LALR《〈1) 的 ， 但 不 是 SLR〈1) 的 。 


! 练习 4.7.5: 说 明 下 面 的 文法 
SAalbAc|BclbBa 


A-d 


Bod 


是 LR (1) 的 ， 但 不 是 LALR (1) 的 。 


4.8 使 用 二 义 性 文法 


实际 上 ， 每 个 二 义 性 文法 都 不 是 LR 的 ， 因 此 它们 不 在 前 面 两 节 讨 
论 的 任何 文法 类 之 内 。 然 而 ， 茶 些 类 型 的 二 义 性 文法 在 语言 的 规约 和 实 
现 中 很 有 用 。 对 于 像 表 达 式 这 样 的 语言 构造 ， 二 义 性 文法 能 提供 比 任何 
等 价 的 无 二 义 性 文法 更 短 、 更 自然 的 规约 。 二 义 性 文法 的 男 一 个 用 途 是 
隅 离 经 和 党 出 现 的 语法 构造 ， 以 对 其 进行 特殊 的 优化 。 使 用 二 义 性 文法 ， 
我 们 可 以 同文 法 中 精心 加 入 新 的 产生 式 来 描述 特殊 情况 的 构造 。 


虽然 使 用 的 文法 是 二 义 性 的 ， 但 我 们 在 所 有 的 情况 下 都 会 给 出 消除 
二 义 性 的 规则 ， 使 得 每 个 句子 只 有 一 标语 法 分 析 树 。 通 过 这 个 方法 ， 语 
言 的 规约 在 整体 上 是 无 二 义 性 的 ， 有 时 还 可 以 构造 出 遵循 这 个 二 义 性 解 
决 方法 的 LR 语法 分 析 器 。 我 们 强调 应 该 保守 地 使 用 二 义 性 构造 ， 并 且 
RR 否则 无 法 保证 一 个 语法 分 析 器 识别 的 到 底 是 
人 J 二 。 





4.8.1 用 优先 级 和 结合 性 解决 冲突 








考虑 带 有 运算 符 + 和 * 的 有 二 义 性 的 表达 式 文法 (4.3) 。 为 方便 起 
见 ， 这 里 再 次 给 出 此 文法 : 


E,E+E|IE*E| (E) |id 


这 个 文法 是 二 义 性 的 ， 因 为 它 没 有 指明 运算 符 + 和 * 的 优先 级 和 结合 性 。 
无 二 义 性 的 文法 (4.1) (包含 产生 式 E E+T 和 TT-,;T*F) 生成 同样 的 
语言 ， 但 是 指定 + 的 优先 级 低 于 *， 并 且 两 个 运算 符 都 是 左 结合 的 。 出 于 
两 个 原因 ， 我 们 愿意 使 用 这 个 二 义 性 文法 。 第 一 ， 我 们 将 会 看 到 的 ， 可 
以 很 容易 地 改变 运算 符 + 和 * 的 优先 级 和 结合 性 ， 既 不 需要 修改 文法 
(4.3) 的 产生 式 ， 也 不 需要 改变 相应 语法 分 析 器 的 状态 数目 。 第 二 ， 
相应 无 二 义 性 文法 的 语法 分 析 器 将 把 部 分 时 间 用 于 归 约 产生 式 E TT 和 
TF。 这 两 个 产生 式 的 功能 就 是 保证 结合 性 和 优先 级 。 二 义 性 文法 
(4.3) 的 语法 分 析 器 不 会 把 时 间 浪 费 在 对 这 些 单产 生 式 ( 即 产 生 式 体 
中 只 包含 一 个 非 终 结 符号 的 产生 式 〉 的 归 约 上 。 

















使 用 已 ~E 增 广 之 后 的 二 义 性 表达 式 文 法 〈4.3) 的 LR (0) 项 集 显 

示 在 图 4-48 中 。 因 为 文法 〈4.3) 是 二 义 性 的 ， 在 我 们 试图 用 这 些 项 集 生 
成 一 个 LR 语法 分 析 表 时 会 出 现 分 析 动 作 冲 突 。 对 应 于 项 集 I[7 和 Ig 的 两 个 
状态 束 产 生 了 这 样 的 冲突 。 假 设 我 们 使 用 SLR 方 法 来 构造 语法 分 析 动 作 
表 。 了 在 输入 + 或 * 上 产生 了 冲突 ， 不 能 确定 应 该 按照 E -E+E 归 约 还 是 应 
该 移入 。 这 个 冲突 无 法 解决 ， 因 为 + 和 * 都 在 FOLLOW (E)〉 中。 因此 在 
输入 为 * 或 + 时 ， 这 两 种 动作 都 被 要 求 执行 。Ig 也 产生 了 类 似 的 冲突 ， 即 
在 输入 为 + 或 * 时 ， 不 能 确定 应 该 按照 EE*EE 归 约 还 是 应 该 移入 。 实 际 

上 ， 任 意 一 种 LR 语法 分 析 表 构造 方法 都 会 产生 这 样 的 冲突 。 








图 4-48 一 个 增 广 表达 式 文法 的 LR (0) 项 集 


然而 ， 这 些 问 题 可 以 使 用 + 和 * 的 优先 级 和 结合 性 信息 来 解决 。 考 虑 
输入 id + id * id。 它 使 得 基于 图 4-48 的 语法 分 析 器 在 处 理 完 id+id 之 后 进 


入 状态 7。 更 明确 地 说 ， 语 法 分 析 右 进入 如 下 的 格局 : 


前 绥 栈 前 入 
E+E 0147 * id $ 


为 方便 起 见 ， 我 们 同时 将 对 应 于 状态 1、4 和 7 的 符 写 显示 在 “前 
级 ” 列 中 。 


如 果 * 的 优先 级 高 于 +， 我 们 知道 语法 分 析 器 应 该 将 * 移 入 栈 中 ， 准 
备 将 这 个 * 和 它 两 边 的 id 符 号 归 约 为 一 个 表达 式 。 图 4-37 显 示 了 根据 等 价 
的 无 二 义 性 文法 得 到 的 SLR 语 法 分 析 器 。 这 个 分 析 器 也 做 出 同样 的 选 
择 。 妃 一 方面 ， 如 条 + 的 优先 级 高 于 *， 我 们 知道 语法 分 析 器 应 该 将 E+E 
归 约 为 E。 因 此 ，+ 和 * 之 间 的 相对 优先 关系 可 以 被 用 于 解决 状态 7 上 的 冲 
突 ， 确 定 在 输入 * 上 应 该 按照 EE+E 归 约 还 是 应 该 移入 。 


假如 输入 是 id + id +id， 语 法 分 析 吉 在 处 理 了 输入 id +id 之 后 ， 仍 然 
能 获得 栈 内 容 为 0147 的 格局 。 在 输入 为 + 时 ， 状 态 7 中 仍然 有 一 个 移入 / 
归 约 冲突 。 然 而 ， 现 在 运算 符 + 的 结合 性 可 以 决定 如 何 解决 这 个 冲突 。 
如 果 + 是 左 结合 的 ， 正 确 的 动作 是 按照 了 ~ E+E 进 行 归 约 。 也 就 是 说 ， 第 
一 个 + 号 两 边 的 id 必须 被 分 在 一 组 。 这 个 选择 仍然 和 相应 无 二 义 性 文法 
的 SLR 语 法 分 析 器 的 做 法 一 致 。 


概括 地 讲 ， 假 设 + 是 左 结合 的 ， 状 态 7 在 输入 + 时 的 动作 应 该 是 按照 
E 一 E+E 进 行 归 约 。 假 设 * 的 优先 级 蜗 于 +， 状 态 7 在 输入 * 上 的 动作 应 该 
是 移入 。 类 似 地 ， 假 设 * 是 左 结合 的 ， 并 且 它 的 优先 级 高 于 +。 因 为 只 有 
当 栈 中 最 上 端的 三 个 符号 是 E*E 时 ， 状 态 8 才 能 出 现在 栈 项 。 我 们 可 以 
认为 状态 8 在 输入 * 和 + 上 的 动作 都 是 按照 EE*E 归 约 。 对 于 输入 为 + 的 
情况 ， 理 由 是 * 的 优先 级 高 于 +; 而 对 于 输入 为 * 的 情况 ， 理 由 是 * 是 左 结 


合 的 。 








0 
1 
2 
3 
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7 
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9 





图 4-49 文法 (4.3) 的 语法 分 析 表 


按照 这 个 方式 进行 处 理 ， 我 们 可 以 得 到 图 4-49 所 示 的 LR 语法 分 析 
表 。 产 生 式 1 一 4 分 别 是 E~“E+E、E、Ex*E、E_(E) 和 Eid。 很 有 意 
思 的 是 ， 如 果 从 图 4-37 所 示 的 无 二 义 性 表达 式 文法 (4.1) 的 SLR 分 析 表 
中 删除 单产 生 式 ET 和 TF 的 归 约 动作 ， 我 们 可 以 得 到 一 个 相似 的 语 
法 动作 表 。 在 使 用 LALR 和 规范 LR 语法 分 析 技 术 时 ， 我 们 也 可 以 使 用 类 
似 的 方法 来 处 理 这 种 二 义 性 文法 。 





4.8.2 “悬空 -else” 的 二 义 性 


再 次 考虑 下 面 的 条 件 语 句 文法 : 


stmt —1f expr then stmt else simt 


| 1f expr then simt 


| other 


如 我 们 在 4.3.2 市 中 指出 的 ， 这 个 文法 是 二 义 性 的 ， 因 为 它 没 有 解决 
悬空 -else 的 二 义 性 问题 。 为 了 简化 这 个 讨论 ， 我 们 考虑 这 个 文法 的 一 个 





抽象 表示 ， 其 中 i 表示 if expr then，e 表 示 else，a 表 示 “ 所 有 其 他 的 产生 
式 ”。 那 么 我 可 以 用 增 广 产生 式 S' ~ S 重 写 这 个 文法 : 


SS 
SiSeSliS|a (4.67) 


文法 (4.67) 的 LR (0) 项 集 显 示 在 图 4-50 中 。 因 为 文法 (4.67) 的 
二 义 性 ， 在 Ly 中 有 一 个 移入 / 归 约 冲突 。 在 该 项 集中 ，S iS:eS 要 求 将 e 移 
入 ， 又 因为 FOLLOW (S) ={e，$}， 项 SiS: 要 求 在 输入 为 e 的 时 候 用 
S iS 进行 归 约 。 


5S — a: 


9 一 19.e9 
9 一 79 
一 219e.9 
一 .9e9 
S15 
S—a 


9 一 19e9. 





图 4-50 增 广 文法 〈4. 67) 的 LR (0) 状态 
把 这 些 讨论 翻译 回 if-then-else 的 术语 ， 假 设 栈 中 内 容 为 
if expr then stmt 


且 else 是 第 一 个 输入 符号 ， 我 们 应 该 将 else 移 入 栈 中 〈 即 移入 e) 呢 ? 还 
是 应 该 将 if expr then stmt 归 约 〔( 即 按照 SiS 归 约 ) 呢 ? 答案 是 我 们 应 该 
移入 ealse， 因 为 它 是 和 前 一 个 then“ 相 关 ” 的 。 按 照 文法 〈4.67) 的 术语 ， 
输入 中 代表 else 的 e 只 能 作为 以 i 开 头 的 产生 式 体 的 一 部 分 ， 而 现在 栈 顶 
内 容 就 是 二。 如 果 输 入 中 跟 在 e 后 面 的 符号 不 能 被 归 约 为 S， 使 得 分 析 嚣 
无 法 归 约 得 到 完整 的 产生 式 体 iSeS， 那 么 可 以 证 明 别 的 语法 分 析 过 程 也 


不 可 能 得 到 这 个 产生 式 体 。 
我 们 可 以 确定 在 解决 中 的 移入 / 归 约 冲突 时 应 该 在 输入 为 e 时 执行 
移入 动作 。 使 用 这 个 方式 解决 了 I4 在 输入 e 上 的 语法 分 析 动 作 冲 突 之 后 ， 


根据 图 4-50 的 项 集 构造 得 到 的 SLR 语 法 分 析 表 显示 在 图 4-51 中 。 产 生 式 1 
一 3 分 别 是 SiSeS、S ,iS 和 S ,a。 


ACTION GOTO 











图 4-51 悬 空 else 文 法 的 LR 分 析 表 


比如 ， 在 处 理 输入 iiaea 时 ， 根 据 正 确 的 “悬空 -else" 冲 突 的 解决 方 
法 ， 语 法 分 析 峰 执行 了 图 4-52 中 所 示 的 步骤 。 在 第 5 行 ， 状 态 4 在 输入 e 
上 选择 了 移入 动作 ， 而 在 第 9 行 ， 状 态 4 在 输入 $ 上 要 求 按照 $ iS 进行 归 
约 。 


ee 


iiaea$ 


根据 9 一 a 归 约 
移入 
移入 
根据 5 一 4 归 约 
根据 9 一 iSeS 归 约 
根据 9 一 19 归 约 
接受 

图 4-52 ”处理 输入 iiaea 时 的 语法 分 析 动 作 


~ OD 





( 
( 
( 
( 
( 
( 
( 
( 
1 


AAA 


EN 
OW 


我 们 做 一 个 比较 ， 如 果 我 们 不 能 使 用 二 义 性 文法 来 描述 条 件 语 句 ， 
那么 我 们 将 不 得 不 使 用 例 4.16 中 给 出 的 笨拙 的 文法 来 描述 。 


4.8.3 ”LR 语法 分 析 中 的 错误 恢复 


当 LR 语 法 分 析 器 在 查询 语法 分 析 动 作 表 并 发 现 一 个 报错 条 目 时 ， 
它 就 检测 到 了 一 个 语法 错误 。 在 查询 GOTO 表 时 不 会 发 现 语法 错误 。 如 
果 当 前 已 扫 摘 的 输入 部 分 不 可 能 存在 正确 的 后 续 符 号 串 ，LR 语 法 分 析 
器 就 会 立刻 报错 。 规 范 LR 语 法 分 析 器 不 会 做 任何 多 余 的 归 约 动作 ， 会 
立刻 报告 错误 。SLR 和 LALR 语 法 分 析 右 可 能 会 在 报错 之 前 执行 几 次 归 
约 动 作 ， 但 是 它们 决 不 会 把 一 个 错误 的 输入 符号 移入 到 栈 中 。 


在 LR 语 法 分 析 过 程 中 ， 我 们 可 以 按照 如 下 方式 实现 恐 惰 模 式 的 错 
误 恢 复 策 略 。 我 们 从 栈 顶 向 下 扫描 ， 直 到 发 现 某 个 状态 s， 它 有 一 个 对 
应 于 某 个 非 终 结 符号 A 的 GOTO 目 标 。 然 后 我 们 丢弃 零 个 或 多 个 输入 符 
号 ， 直 到 发 现 一 个 可 能 合法 地 跟 在 A 之 后 的 符号 a 为 止 。 之 后 语法 分 析 器 
将 GOTO (s，A) 压 入 栈 中 ， 继 续 进 行 正 常 的 语法 分 析 。 在 实践 中 可 能 
会 选择 多 个 这 样 的 非 终结 符号 A。 通 常 这 些 非 终结 符号 代表 了 主要 的 程 
序 段 ， 比 如 表达 式 、 语 名 或 块 。 比 如 ， 如 果 A 是 非 终结 符号 stmt，a 就 可 
能 是 分 号 或 者 }。 其 中 ，} 标 记 了 一 个 语句 序列 的 结 


这 个 错误 恢复 方法 试图 消除 包含 语法 错误 的 短语 。 语 法 分 析 器 确定 
一 个 从 A 推 导出 的 串 中 包 合 错误 。 这 个 串 的 一 部 分 已 经 被 处 理 ， 并 形成 
了 栈 顶 部 的 一 个 状态 序列 。 这 个 串 的 其 余部 分 还 在 输入 中 ， 语 法 分 析 器 
则 在 输入 中 僵 找 可 以 合法 地 跟 在 A 后 面 的 符 写 ， 从 而 试图 跳 过 这 个 串 的 
其 余部 分 。 通 过 从 栈 中 删除 状态 ， 跳 过 一 部 分 输入 ， 并 将 GOTO (〈s， 
A) 压 入 栈 中 ， 语 法 分 析 器 假装 它 已 经 找到 了 A 的 一 个 实例 ， 并 继续 进 
行 正常 的 语法 分 析 。 


实现 短语 层次 错误 恢复 的 方法 如 下 : 检查 LR 语法 分 析 表 中 的 每 个 
报错 条 目 ， 并 根据 语言 的 使 用 方法 来 决定 程序 员 所 犯 的 何 种 错误 最 有 可 
能 引起 这 个 语法 错误 。 然 后 构造 出 适当 的 恢复 过 程 ， 通 常会 根据 各 个 报 
错 条 目 来 确定 适当 的 修改 方法 ， 修 改 栈 顶 状态 和 /或 第 一 个 输入 符号 。 


在 为 一 个 LR 语法 分 析 器 设计 专门 的 错误 处 理 例 程 时 ， 我 们 可 以 在 
表 的 动作 字段 的 每 个 空 条 目 中 填写 一 个 指向 错误 处 理 例 程 的 指针 。 该 例 























程 将 执行 编译 器 设计 者 所 选 定 的 恢复 动作 。 这 些 动作 包括 在 栈 和 /或 输 
入 中 删除 或 插入 符号 ， 也 包含 车 换 输 入 符号 或 将 输入 符号 换 位。 我 们 必 
须 府 慎 地 做 出 选择 ， 避 免 LR 语 法 分 析 恬 陷入 无 限 人 循环 。 一 个 安全 的 集 
略 是 保证 最 终 全 少 有 一 个 输入 符号 被 删除 或 移入 ， 并 且 如 果 到 达 输 入 结 
束 位 置 时 要 保证 栈 会 缩小 。 应 该 避免 从 栈 中 弹出 一 个 和 某 非 终结 符 写 对 
应 的 状态 ， 因 为 这 样 的 修改 相当 于 从 栈 中 消除 了 一 个 已 经 被 成 功 分 析 的 


语言 构造 。 
WERY4 再 次 考虑 表达 式 文法 
EL,E+E|IE*E| (E) |id 


图 4-49 中 显示 了 这 个 文法 的 LR 分 析 表 。 图 4-53 中 显示 的 是 对 这 个 分 
析 表 进行 修改 后 得 到 的 语法 分 析 表 。 修 改 后 的 表 添加 了 错误 检测 和 恢复 
的 动作 。 对 于 那些 在 某 些 输 入 上 执行 特定 归 约 动作 的 状态 ， 我 们 将 这 个 
状态 中 的 报错 条 目 蔡 换 为 这 个 归 约 动作 。 这 种 修改 可 能 会 使 得 报错 延 后 
至 一 次 或 多 次 归 约 动作 之 后 ， 但 是 错误 仍然 会 在 任何 移入 动作 发 生 之 前 
人 














图 4-53 ” 带 有 错误 处 理子 程序 的 LR 语法 分 析 表 
错误 处 理 例 程 如 下 : 
el: 这 个 例 程 在 状态 0、2、4 和 5 上 被 调用 。 所 有 这 些 状态 都 期 望 读 





入 一 个 运算 分 量 的 第 一 个 符号 ， 这 个 符号 可 能 是 id 或 左 括号 ， 但 是 实际 


读 入 的 却 是 +、* 或 输入 结束 标记 。 
将 状态 3 〈 状 态 0、2、4 和 5 在 输入 id 上 的 6G0T0 目 标 ) 压 入 栈 中 ; 
发 出 诊断 信息 “缺少 运算 分 量 。?” 
e2: 在 状态 0、1、2、4 和 5 上 发 现 输入 为 右 括号 时 调用 这 个 过 程 。 
从 输入 中 删除 右 括号 ; 
发 出 诊断 信息 “不 匹配 的 右 括 号 。” 


e3: 当 在 状态 1 和 6 上 ， 期 待 读 入 一 个 运算 符 却 发 现 了 一 个 id 或 左 括 
号 时 调用 。 


将 状态 4〈 对 应 于 符号 + 的 状态 ) 压 入 栈 中 。 
发 出 诊断 信息 “缺少 运算 符 。? 

e4: 当 在 状态 6 上 发 现 输入 结束 标记 时 调用 。 
将 状态 ? 〈 对 应 于 右 括号 ) 压 入 栈 中 ; 

发 出 诊断 信息 “缺少 右 括号 。?” 








在 处 理 错误 的 输入 id+) 时 ， 语 法 分 析 器 进入 的 格局 序列 显示 在 图 
4-54 中 。 


id 十 )$ 


0 










“不 匹配 的 右 括号 ” 
e2 删除 了 右 括号 
“缺少 运算 分 量 ” 
el 将 状态 3 压 入 栈 中 








图 4-54 ”一 个 LR 语法 分 析 器 所 做 的 语法 分 析 和 错误 恢复 步 又 
4.8.4 4.8 节 的 练习 
! 练习 4.8.1: 下 面 是 一 个 二 义 性 文法 ， 它 描述 了 包含 n 个 二 目 中 组 
运算 符 且 具有 n 个 不 同 优先 级 的 表达 式 : 
E>EQE|IEO0E|...|EOE| CE) |id 
1) 将 SLR 项 集 表示 为 n 的 函数 。 


2) 要 使 得 所 有 的 运算 符 都 是 左 结合 的 ， 并 且 01 的 优先 级 高 于 9,，9， 
的 优先 级 高 于 99， 依 次 类 推 ， 我 们 应 该 如 何 解决 SLR 项 之 间 的 冲突 ? 





3) 根据 你 在 〈2) 中 的 决定 ， 给 出 相应 的 SLR 语 法 分 析 表 。 


4) 图 4-55 中 的 无 二 义 性 文法 定义 了 相同 的 表达 式 集合 。 对 这 个 文 
法 重复 (1) 和 “(3) 部 分 。 


E10, EF | E» 
E20,_1Es | Es 


i OEnt1 | En,t1 
(Ei)|id 





图 4-55 含有 n 个 运算 符 的 表达 式 的 无 二 义 性 文法 


5) 比较 这 两 个 〈 二 义 性 和 无 二 义 性 ) 文法 的 项 集 总 数 以 及 它们 的 
语法 分 析 表 的 大 小 ， 你 能 得 出 什么 结论 ? 关于 二 义 性 表达 式 文 法 的 使 
用 ， 这 个 比较 结果 告诉 我 们 什么 信息 ? 


! 练习 4.8.2: 图 4-56 给 出 了 某 种 语句 的 文法 。 这 些 语句 和 练习 
4.4.12 中 讨论 的 语句 类 似 。 在 这 里 ，e 和 s 仍 然 是 分 别 代表 条 件 表 达 式 
和 “其 他 语句 * 的 终结 符号 。 


af e then stmt 
if e then stmt else stmt 
while e do stmt 


begin list end 
5 

lst ; stmt 

stmt 





图 4-56 某 类 语句 的 文法 


1) 为 这 个 文法 构造 一 个 LR 语法 分 析 表 ， 并 用 解决 惹 空 -else 问 题 的 
常用 方法 来 解决 其 中 的 冲突 。 


2) 在 这 个 语法 分 析 表 中 填 入 额外 的 归 约 动作 或 适当 的 错误 恢复 例 
程 ， 实 现 语法 分 析 中 的 错误 恢复 。 


3) 给 出 你 的 语法 分 析 咒 在 处 理 下 列 输入 时 的 行为 : 


(a) if e then s; if e then s end 


(b) while e do begin s; if e then s; end 





4.9 语法 分 析 喜 生成 工具 


本 节 将 介绍 如 何 使 用 语法 分 析 器 生成 工具 来 帮助 构造 一 个 编译 器 的 
前 病 。 我 们 将 使 用 LALR 语 法 分 析 器 生成 工具 Yacc 作 为 我 们 讨论 的 基 
础 ， 因 为 它 实 现 了 我 们 在 前 两 节 中 讨论 的 很 多 概念 ， 并 且 这 个 工具 很 容 
易 获 得 。Yacc 表 示 “yet another compiler-compiler”， 即 “ 叉 一 个 编译 器 的 
编译 器 ”。 这 个 名 字 反 映 出 当 S$.C. Johnson 在 20 世 纪 70 年 代 早 期 创建 出 
Yacc 的 第 一 个 版 本 时 ， 语 法 分 析 器 生成 工具 非常 流行 。Yacc 在 UNIX 系 
统 中 是 以 命令 的 方式 出 现 的 ， 它 已 经 用 于 实现 多 个 编译 器 产品 。 








4.9.1 语法 分 析 器 生成 工具 Yacc 


按照 图 4-57 中 演示 的 方法 就 可 以 使 用 Yacc 来 构造 一 个 翻译 上 器。 首先 
要 准备 好 一 个 文件 ， 比 如 translate.y， 文 件 中 包含 了 对 将 要 构造 的 翻译 器 
的 规约 。UNIX 系 统 命 令 


yacc translate.y 


Yacc 
规约 


translate.y 


y.tab.c 


输入 





图 4-57 用 Yacc 创 建 一 个 输入 /输出 翻译 器 


使 用 算法 4.63 中 给 出 的 LALR 方 法 将 文件 translate.y 转 换 成 为 一 个 名 
为 y.tab.c 的 C 程 序 。 程 序 y.tab.c 是 一 个 用 C 语 言 编 写 的 LALR 语 法 分 析 


医 ， 另 外 还 包括 由 用 户 准备 的 C 语 言 例 程 。 其 中 的 LALR 分 析 表 是 按照 
4.7 市 中 摘 述 的 方法 压缩 的 。 使 用 命令 

cc y.tab.c ly 

9 函数 库 的 名 字 1y 和 具体 系统 相关 。 

对 y.tab.c 进 行 编译 ， 并 和 包含 LR 语法 分 析 程 序 的 库 ]y 连 接 ， 我 们 就 得 到 
了 想 要 的 目标 程序 a.out。 这 个 程序 执行 了 由 最 初 的 Yacc 程 序 translate.y 有 所 
描述 的 翻译 工作 。 如 采 需 要 其 他 过 程 ， 它 们 可 以 和 其 他 的 C 程 序 一 样 ， 
和 y.tab.c 一 起 编译 并 加 载 。 


一 个 Yacc 源 程序 由 三 个 部 分 组 成 : 











声明 

%% 

翻译 规则 
%% 


辅助 性 C 语言 例 程 
ER 为 了 说 明 如 何 编写 一 个 Yacc 源 程序 ， 我 们 构造 一 个 简单 的 桌 


寺 异 器 。 该 计算 器 读 入 一 个 算术 表达 式 ， 对 表达 陈 求 值 ， 然 后 打印 出 
表达 式 的 结果 。 我 们 将 从 下 面 的 算术 表达 式 文法 开始 构造 这 个 加 上 计算 
器 : 





Es»E+T|T 
工 一 工 * 下 | 了 
F— (E) |digit 


其 中 的 词法 单元 digit 是 一 个 0~9 之 间 的 数字 。 根 据 这 个 文法 得 到 的 Yace 
桌 上 计算 器 程序 显示 在 图 4-58 中 。 
声明 部 分 


一 个 Yacc 程 序 的 声明 部 分 分 为 两 市 ， 它 们 都 是 可 选 的 。 在 第 一 节 中 
放置 通常 的 C 声 明 ， 这 个 声明 用 %{ 和 }% 括 起 来 。 那 些 由 第 二 和 第 三 部 
分 中 的 翻译 规则 及 过 程 使 用 的 临时 变量 都 在 这 里 声明 。 在 图 4-58 中 ， 这 

















一 节 只 包含 include 语 句 
#include <ctype.h> 


这 个 语句 使 得 C 语 言 的 预 处 理 器 将 标准 头 文件 <ctype.h> 包 含 进 来 ， 这 个 
头 文件 中 包含 了 断言 isdigit。 


在 声明 部 分 中 还 包括 对 词法 单元 的 声明 。 在 图 4-58 中 ， 语 名 
/token DIGIT 


声明 DIGIT 是 一 个 词法 单元 。 在 这 一 节 中 声明 的 词法 单元 可 以 在 Yacc 规 
约 的 第 二 和 第 三 部 分 中 使 用 。 如 果 同 Yacc 语 法 分 析 器 传送 词法 单元 的 词 
法 分 析 器 是 使 用 Lex 创 建 的 ， 那 么 如 3.5.2 节 中 讨论 的 ，Lex 生 成 的 词法 分 
析 器 也 可 以 使 用 这 里 声明 的 词法 单元 。 








| 
#include “ctype.h> 


4} 

%token DIGIT 

hp 

line  : expr '\n' { printf ("d\n'", $1); } 


expr  : expr '+' term { $$ = $1 + $3; } 
term 


: term '*! factor { $$ = $1 * $3; } 
factor 


factor : '(' expr !)， { $$ = $2; } 
DIGIT 


0 
yy1lex() 苹 
int c; 
c = getchar() ; 
if (isdigit(c)) { 
yylval = c-'0'; 
return DIGIT; 
} 


return c; 





图 4-58 一 个 简单 的 来 上 计算 器 的 Yacc 规 约 
翻译 规则 部 分 


我 们 将 翻译 规则 放置 在 Yacc 规 约 中 第 一 个 %9% 对 之 后 的 部 分 。 每 个 
规则 由 一 个 文法 产生 式 和 一 个 相关 联 的 语义 动作 组 成 。 我 们 前 面 写作 


< 产生 式 头 > < 产生 式 体 >; | < 产生 式 体 >, | … | < 产生 式 体 > 
的 一 组 产生 式 在 Yacc 中 被 写成 : 


< 产生 式 尖 3 志 产 生 式 体 S 1 亏 语 义 动作 > 
| 用 关于 人 


| 过 产生 式 体 > ,| < 语义 动作 > | 


9 


在 一 个 Yacc 产 生 式 中 ， 如 果 一 个 由 字母 和 数位 组 成 的 字符 串 没有 加 
引 写 且 末 被 声明 为 词法 单元 ， 它 束 会 被 当 作 非 终 结 符 写 处 理 。 带 引号 的 
单个 字符 ， 比 如 ‘c*?， 会 被 当 作 终结 符 写 ce 以 及 它 所 代表 的 词法 单元 所 对 
应 的 整数 编码 ( 即 Lex 将 把 ‘c? 的 字符 编码 当 作 整 数 返 回 给 语法 分 析 
露 ) 。 不 同 的 产生 式 体 用 竖 线 分 开 ， 每 个 产生 式 头 以 及 它 的 可 选 产生 式 
体 及 语义 动作 之 后 跟 一 个 分 号 。 第 一 个 产生 式 的 头 得 号 被 看 作 开 始 符 
3 


一 个 Yacc 语 义 动 作 是 一 个 C 语 句 的 序列 。 在 一 个 语义 动作 中 ， 符 号 
$$ 表示 和 相应 产生 式 头 的 非 终 结 符号 关联 的 属性 值 ， 而 $i 表示 和 相应 产 
生 式 体 中 第 i 个 文法 符号 (终结 符号 或 非 终结 符号 ) 关 联 的 属性 值 。 当 
我 们 按照 一 个 产生 式 进行 归 约 时 就 会 执行 和 该 产生 式 相 关联 的 语义 动 
作 ， 因 此 语义 动作 通常 根据 $i 的 值 来 计算 $$ 的 值 。 在 上 面 的 Yacc 规 范 
中 ， 我 们 将 两 个 E 产 生 式 


E_E+TIT 
和 它们 的 相关 语义 动作 写作 : 


expr : expr '+' term { $$ = $1 + $3; } 
| term 


. 
》 


请 注意 ， 第 一 个 产生 式 中 的 非 终 结 符号 term 是 该 产生 式 体 中 的 第 三 
个 文法 符号 ， 而 + 是 第 二 个 文法 符号 。 与 第 一 个 产生 式 关 联 的 语义 动作 
将 产生 式 体 中 的 expr 和 term 的 值 相 加 ， 并 把 结果 赋 给 产生 式 头 上 的 非 终 
结 符 号 expr。 我 们 省 略 了 第 二 个 产生 式 的 语义 动作 ， 因 为 对 于 体 中 只 包 
舍 一 个 文法 符号 的 产生 式 ， 黑 认 的 语义 动作 就 是 找 贝 属性 值 。 总 的 来 











说 ， 默 认 动 作 是 {$$=$1; }。 
请 注意 ， 我 们 同 这 个 Yacc 规 范 中 加 入 了 一 个 新 的 开始 符号 产生 式 
line : expr '\n' { printf("%d\n", $1); } 


这 个 产生 式 说 明 宋 面 计 算 器 的 输入 是 一 个 跟着 换行 符 的 表达 式 。 和 
这 个 产生 式 相 关 的 语义 动作 打印 出 了 输入 表达 式 的 十 进 制 取 值 和 一 个 换 


辅助 性 C 语 言 例 程 部 分 


一 个 Yacc 规 约 的 第 三 部 分 由 辅助 性 C 语 言 例 程 组 成 。 这 里 必须 提供 
一 个 名 为 yylex( ) 的 词法 分 析 器 。 用 Lex 来 生成 yylex( ) 是 一 个 常用 的 选 
择 ， 见 4.9.3 节 。 在 需要 时 可 以 添加 错误 恢复 例 程 这 样 的 过 程 。 


词法 分 析 器 yylex() 返 回 一 个 由 词法 单元 名 和 相关 属性 值 组 成 的 词 
法 单元 。 如 果 要 返回 一 个 词法 单元 名 字 ， 比 如 DIGIT， 那 么 这 个 名 字 必 
须 先 在 Yacc 规 约 的 第 一 部 分 进行 声明 。 一 个 词法 单元 的 相关 属性 值 通过 
一 个 Yacc 定 义 的 变量 yylval 传 送 给 语法 分 析 器 。 

图 4-58 中 的 词法 分 析 右 是 非常 原始 的 。 它 使 用 C 函 数 getchar() 逐 个 
读 入 字符 。 如 果 字 符 是 一 个 数位 ， 这 个 数位 的 值 就 存放 在 变量 yylval 
中 ， 返 回 词法 单元 的 名 字 DIGIT。 否 则 ， 字 符 本 身 被 当 作词 法 单元 名 返 
加 | 。 








4.9.2 ”使 用 带 有 二 义 性 文法 的 Yacc 规 约 


现在 让 我 们 修改 这 个 Yacc 规 约 ， 使 得 这 个 桌面 计算 器 更 加 有 用 。 首 
先 ， 我 们 将 允许 果 面 计算 器 对 一 个 表达 式 序列 进行 求 值 ， 其 中 每 个 表达 
An 





lines : lines expr 'Nn' { printf("%g\n", $2); } 
| lines '\n' 
| /* empty */ 





在 Yacc 中 ， 像 第 三 行 那样 的 空白 产生 式 表示 E。 
其 次 ， 我 们 将 扩展 表达 式 的 种 类 ， 使 得 它 的 语言 可 以 包含 数字 ， 而 
不 是 单个 数位 ， 并 且 包 含 算术 运算 符 +、-( 包 括 双 目 和 单 目 ) 、* 和 /。 
描述 这 类 表达 式 的 最 容易 的 方式 是 使 用 下 面 的 二 义 性 文法 : 
E_E+EIE-EIE*EIE/E|-E| (E) |number 


得 到 的 Yacc 规 约 如 图 4-59 所 示 。 





LA 


%} 

token NUMBER 
WT py st 
Wleft rxk! 1'f' 


yright UMINUS 
4% 


/* empty 


expr : expr '+' 
| expr '-! 
| expr '*! 
| expr '/' 
| '(' expr 
| '-' expr 
| NUMBER 


hh 
yylex() { 
int c; 


} 


return c; 





#include <ctype.h> 
#include <stdio.h> 
#define YYSTYPE double 


lines : lines expr '\n' 
lines ' ANn' 


*/ 


expr 
expr 
expr 
expr 


的 员 


/* double type for Yacc stack */ 


{ printf("%g\n", $2); } 


{ $$ 
{ $$ 
{ $$ 
{ $$ 
{ $$ 


hprec UMINUS 


于 


while ( (c = getchar() ) == 

if ( (c == '.') || (isdigit(c)) ) 二 
ungetc(c, stdin); 
scanf ("%1f", &yylval); 
return NUMBER ; 


$1 + $3; } 
$1 = $3; } 
$1 * $3; } 
$1 / $3; 上 
$2; } 

$$ = - $2; } 
"3 





图 4-59 ”一 个 更 加 先进 的 桌 上 计算 器 的 Yacc 规 约 


因为 图 4-59 中 Yacc 规 约 的 文法 是 二 义 性 的 ，LALR 算 法 将 会 出 现 语 
法 分 析 动 作 冲 突 。Yacc 会 报告 产生 的 语法 分 析 动 作 冲 突 的 数量 。 使 用 -v 
选项 调用 Yacc 可 以 得 到 关于 项 集 和 语法 分 析 动 作 冲 突 的 描述 。 这 个 选项 
会 产生 一 个 附加 的 文件 y.output， 它 包含 文法 的 项 集 的 内 核 ， 对 LALR 
算法 产生 的 语法 分 析 动 作 冲 突 的 插 述 ， 以 及 LR 语法 分 析 表 的 一 个 可 读 


表示 形式 。 这 个 可 读 表 示 形 式 显 示 了 Yacc 是 如 何 解 决 这 些 语法 分 析 动 作 
冲突 的 。 只 要 Yacc 报 告发 现 了 语法 分 析 动 作 冲 突 ， 那 么 最 好 创建 并 查 

阅 y .output 文 件 ， 了 人 解 为 什么 会 产生 这 些 语法 分 析 动 作 冲 突 ， 并 检查 

Yacc 是 否 已 经 正确 解决 了 它们 。 


除非 另行 指定 ， 人 否则 Yacc 会 使 用 下 面 的 两 个 规则 来 解决 所 有 的 语法 
分 析 动 作 冲 突 : 

1) 解决 一 个 归 约 / 归 约 冲突 时 ， 选 择 在 Yacc 规 约 中 列 在 前 面 的 那个 
2 

2) 解决 移入 / 归 约 冲突 时 总 是 选择 移入 。 这 个 规则 正确 地 解决 了 因 
为 芯 空 else 二 义 性 而 产生 的 移入 / 归 约 冲突 。 

因为 这 些 默 认 规 则 不 可 能 总 是 编译 器 作者 需要 的 ， 所 以 Yacc 提 供 了 
一 个 通用 的 机 制 来 解决 移入 / 归 约 冲突 。 在 声明 部 分 ， 我 们 可 以 给 终结 
符号 赋予 优先 级 和 结合 性 。 声 明 

Wleft 1+! ‘~ 


使 得 + 和 -具有 相同 的 优先 级 ， 并 且 都 是 天 结合 的 。 我 们 可 以 把 一 个 运算 
符 声 明 为 右 结合 的 ， 比 如 : 











hright '~! 
我 们 可 以 声明 一 个 运算 符 是 非 结合 性 的 二 目 运 算 符 〈 即 这 个 运算 符 
的 两 次 出 现 不 能 合并 到 一 起 ) ， 方 法 如 下 : 


Ynonassoc '<! 


词法 单元 的 优先 级 是 根据 它们 在 声明 部 分 的 出 现 顺序 而 定 的 。 优 先 
级 最 低 的 词法 单元 最 先 出 现 。 同 一 个 声明 中 的 词法 单元 具有 相同 的 优先 
级 。 因 此 ， 图 4-59 中 的 声明 








%right UMINUS 





赋予 词法 单元 UMINUS 的 优先 级 要 高 于 前 面 五 个 终结 符号 的 优先 级 。 
除了 给 各 个 终结 符号 赋予 优先 级 ，Yacc 也 可 以 给 和 茶 个 冲突 相关 的 


各 个 产生 式 赋予 优先 级 和 结合 性 ， 来 解决 移入 / 归 约 冲突 。 如 末 它 必须 
在 移入 一 个 输入 符号 a 和 按照 A -a 进行 归 约 之 间 进 行 选择 ， 那 么 当 这 个 
产生 陈 的 优先 级 高 于 a 的 优先 级 时 ， 或 者 当 两 者 的 优先 级 相同 但 产生 式 
是 左 结 合 的 时 ，Yacc 束 选择 归 约 ;于 则 就 选择 移入 动作 。 


通常 ， 一 个 产生 式 的 优先 级 被 设 定 为 它 的 最 右 终结 符号 的 优先 级 。 
在 大 多 数 情 况 下 ， 这 是 一 个 明智 的 选择 。 比 如 ， 给 定 产生 式 


FE 下 +E|E*E 


我 们 将 在 向 前 看 符号 为 + 时 按照 E -E+E 进行 归 约 ， 因 为 产生 式 体 
中 的 + 和 这 个 向 前 看 符号 具有 相同 的 优先 级 ， 且 它 是 左 结合 的 。 在 疝 前 
看 符号 为 * 时 ， 我 们 将 选择 移入 ， 因 为 这 个 同 前 看 符号 的 优先 级 高 于 产 
生 式 体 中 + 的 优先 级 。 


在 那些 最 右 终结 符号 不 能 为 产生 式 提 供 正 确 优先 级 的 情况 下 ， 我 们 

可 以 在 产生 式 后 增加 一 个 标记 
%prec (终结 符 呈 

来 指明 该 产生 式 的 优先 级 。 此 时 这 个 产生 式 的 优先 级 和 结合 性 将 和 这 个 
终结 符号 相同 ， 而 这 个 终结 符号 的 优先 级 和 结合 性 应 该 在 声明 部 分 定 
义 。Yacc 不 会 报告 那些 已 经 使 用 这 个 优先 级 /结合 性 机 制 解决 了 的 移入 / 
归 约 冲突 。 

这 里 的 “终结 符号 ?可 以 仅仅 作为 一 个 占 位 符 ， 就 像 图 4-59 中 的 
uMINUs 那 样 。 这 个 终结 符号 不 会 被 词法 分 析 器 返回 ， 声 明 它 的 目的 仅仅 
是 为 了 定义 一 个 产生 式 的 优先 级 。 在 图 4-59 中 ， 声 明 


Yright UMINUS 

















有 
工 


expr :; “=-”eXpTr 


后 面 的 标记 


hprec UMINUS 


使 得 这 个 产生 式 中 的 单 目 减 运算 符 具 有 比 其 他 运算 符 更 高 的 优先 级 。 





4.9.3 ”用 Lex 创 建 Yacc 的 词法 分 析 器 


Lex 的 作用 是 生成 可 以 和 Yacc 一 起 使 用 的 词法 分 析 器 。Lex 库 1 将 提 
供 一 个 名 为 yylex() 的 驱动 程序 。Yacc 要 求 它 的 词法 分 析 器 的 名 字 
为 yylex()。 如 果 用 Lex 来 生成 词法 分 析 器 ， 那 么 我 们 可 以 将 Yacc 规 约 的 
第 三 部 分 的 例 程 yylex() 蔡 换 为 语句 


#include "lex.yy.c" 


并 令 每 个 Lex 动 作 都 返回 Yacc 已 知 的 终结 符号 。 通 过 使 用 语句 
#include "lex.yy.c", 程序 yylex 能 够 访问 Yacc 定 义 的 词法 单元 名 字 ， 
因为 Lex 的 输出 文件 是 作为 Yacc 的 输出 文件 y.tab.c 的 一 部 分 被 编译 的 。 


在 UNIX 系 统 中 ， 如 果 Lex 规 约 存放 在 文件 first .1 中 ， 且 Yacc 规 约 
在 second.y 中 ， 我 们 可 以 使 用 命令 





lex first.l1 
yacc second.y 
CC ytabse =1y =11 


来 得 到 想 要 的 翻译 器 。 
图 4-60 中 的 Lex 规 约 可 以 用 在 图 4-59 中 需要 词法 分 析 器 的 地 方 。 


最 
后 的 表示 “任意 字符 ”的 模式 必须 被 写作 \n|.， 因 为 在 Lex 中 ， 点 (.) 表 
示 除 了 换行 符 之 外 的 任意 字符 。 














[0-9]+\.?|[0-9]*\ . [0-9]+ 


{ /* skip blanks */ } 


{number} { sscanf (yytext, "Wlf", &yylval); 
return NUMBER; } 
Nn { return yytext[0]; } 





图 4-60 ”图 4-59 中 的 yylex 的 Lex 规 约 


4.9.4 Yacc 中 的 错误 恢复 





Yacc 的 错误 恢复 使 用 了 错误 产生 式 的 形式 。 首 先 ， 用 户 定 义 了 哪 
些 “ 主 要 ” 非 终结 符号 将 具有 相关 的 错误 恢复 动作 。 通 各 的 选择 是 非 终 结 
符号 的 某 个 子 集 ， 包 括 那 些 用 于 生成 表达 式 、 语 句 、 块 和 函数 的 非 终结 
符 写 。 然 后 ， 用 户 在 文法 中 加 入 形 如 A -error a 的 错误 产生 式 ， 其 中 A 
是 一 个 主要 非 终结 符 号 ，a 是 一 个 可 能 为 空 的 文法 符号 串 ，error 是 Yacc 
的 一 个 保留 字 。Yacc 把 这 样 的 错误 产生 式 当 作 普 通 产生 式 ， 根 据 这 个 规 
约 生 成 一 个 语法 分 析 器 。 


然而 ， 当 Yacc 生 成 的 语法 分 析 器 碰 到 一 个 错误 时 ， 它 就 以 一 种 特殊 
的 方法 来 处 理 那些 对 应 项 集 包含 错误 产生 式 的 状态 。 当 碰 到 一 个 错误 
时 ，Yacc 束 会 从 它 的 栈 中 不 断 弹 出 符号 ， 直 到 它 磁 到 一 个 满足 如 下 条 件 
的 状态 : 该 状态 对 应 的 项 集 包 含 一 个 形 如 A ~ :error a 的 项 。 然 后 语法 分 
析 器 束 好 像 在 输入 中 看 到 了 error， 将 虚构 的 词法 单元 error 移 入 栈 中 。 


当 o 为 < 时 ， 语 法 分 析 器 立刻 就 执行 一 次 归 约 到 A 的 动作 ， 并 调用 
和 产生 式 A -error 相关 的 语义 动作 (这 可 能 是 一 个 用 户 定义 的 错误 恢复 
例 程 》。 然 后 语法 分 析 器 抛弃 一 些 输入 符号 ， 直 到 它 找到 某 个 使 它 可 以 
继续 进行 正常 的 语法 分 析 的 符号 为 止 。 


如 果 o 不 为 空 ，Yacc 将 癌 前 跳 过 一 些 输入 符号 ， 寻 找 可 以 被 归 约 为 oa 
的 子 串 。 如 果 a 全 部 由 终结 符号 组 成 ， 那 么 它 就 在 输入 中 寻找 这 个 终结 
符号 串 ， 并 将 它们 移入 到 栈 中 进行 “ 归 约 "。 此 时 ， 语 法 分 析 器 栈 的 顶部 
是 error qa。 然后 语法 分 析 器 将 把 error a 归 约 为 A， 并 继续 进行 正常 的 语 
Ns 





比如 ,二 沾 形 溃 
stmt 一 error: 


的 错误 产生 式 规定 语法 分 析 器 在 碰 到 一 个 错误 的 时 候 要 跳 到 下 一 个 分 写 
之 后 ， 并 假装 已 经 找到 了 一 个 语句 。 这 个 错误 产生 式 的 语义 例 程 不 需要 
处 理 输入 ， 而 是 可 以 直接 生成 诊断 消息 并 做 出 一 些 处 理 ， 比 如 设置 一 个 
标志 来 禁止 生成 目标 代码 。 


图 4-61 在 图 4-59 所 示 的 Yacc 桌 上 计算 器 中 增加 了 错误 产生 式 





lines : error !Nn' 


这 个 错误 产生 式 使 得 这 个 保 上 计算 费 在 输入 中 友 现 一 个 语法 错误 时 
停止 正常 的 语法 分 析 工 作 。 当 碰 到 错误 时 ， 桌 上 计算 需 的 语法 分 析 器 开 
始 从 它 的 栈 中 弹出 符号 ， 直 到 它 在 栈 中 发 现 一 个 在 输入 为 error 时 执行 
移入 动作 的 状态 。 状 态 0 残 是 这 样 的 一 个 状态 (在 这 个 例子 里 面 ， 它 是 
唯一 一 个 这 样 的 状态 ) ， 因 为 它 的 项 包括 了 


lines .error'\n' 


同时 ， 状 态 0 总 是 在 栈 的 底部 。 语 法 分 析 器 将 词法 单元 error 移 入 栈 
中 ， 然 后 向 前 跳 过 输入 符号 ， 直 到 它 发 现 一 个 换行 符 为 止 。 此 时 ， 语 法 
分 析 器 将 换行 符 移 入 到 栈 中 ， 将 error'n ' 归 约 为 lines， 并 发 出 诊断 消 
恩 “ 请 重新 输入 前 一 行 >。 专 门 的 Yacc 例 程 yyerrok 将 语法 分 析 器 的 状态 
重新 设置 为 正常 操作 模式 。 





%{ 


#include <ctype.h> 

#include <stdio.h> 

#define YYSTYPE double /* double type for Yacc stack */ 
%} 

htoken NUMBER 


%left ‘+' '-! 
Wleft tx*! A 
hright UMINUS 
4% 


lines : lines expr '\n' { printf("%g\n", $2); } 


| lines '\n' 
| /* empty */ 
| error '\n' { yyerror("reenter previous line:"); 
yyerrok; } 
expr : expr '+' expr { $$ = $1 + $3; } 
| expr '-' expr { $$ = $1 - $3; +} 
| expr '*' expr { $$ = $1 * $3; } 
| expr '/' expr { $$ = $1 / $3; } 
| '(' expr ')， { $$ = $2; } 
| '-' expr Wprec UMINUS { $$ = - $2; } 
| NUMBER 


hh 
#include "lex.yy.c' 








4.9.5 4.9 节 的 练习 








! 练习 4.9.1: 编写 一 个 Yacc 程 序 。 它 以 布尔 表达 式 〈 如 练习 
4.2.2《7) 中 的 文法 所 描述 的 ) 作为 输入 ， 并 计算 出 这 个 表达 式 的 值 。 


! 练习 4.9.2: 编写 一 个 Yacc 程 序 。 它 以 列表 (如 练习 4.2.2 (5) 中 
的 文法 所 定义 的 ， 但 是 其 元 素 可 以 是 任意 的 单个 字符 ， 而 不 仅 仪 是 a) 
作为 输入 ， 并 输出 这 个 列表 的 线性 表示 ， 即 这 些 元 素 的 单一 列表 ， 并 且 
元 素 顺 序 和 它们 在 输入 中 的 顺序 相同 。 














! 练习 4.9.3: 编写 一 个 Yacc 程 序 。 它 的 功能 是 说 明 输 入 是 否 一 个 回 
文 〈《 即 辐 前 和 辐 后 读 都 一 样 的 字符 序列 ) 。 


! ! 练习 4.9.4: 编写 一 个 Yacc 程 序 。 它 以 正则 表达 式 〈 如 练习 
4.2.2 (4) 中 文法 的 定义 的 ， 但 是 参数 可 以 是 任意 字符 ， 而 不 仅仅 是 a) 
ON 


4.10 ”第 4 章 总 结 


e 语法 分 析 器 。 语 法 分 析 吉 的 输入 是 来 自 词 法 分 析 需 的 词法 单元 序 
列 。 它 将 词法 单元 的 名 字 作 为 一 个 上 下 文 无 关 文 法 的 终结 符号 。 然 后 ， 
语法 分 析 吉 为 它 的 词法 单元 输入 订 列 构造 出 一 柠 语 法 分 析 树 。 可 以 象征 
人 

< 分析 树 。 


e 上 下 文 无 关 文法 。 一 个 文法 描述 了 一 个 终结 符号 集合 〈 输 入 ) ， 
为 一 个 非 终 结 符 写 集合 (表示 语法 构造 的 符 写 ) 和 一 组 产生 式 。 每 个 产 
生 式 说 明了 如 何 从 一 些 部 件 构造 出 菜 个 非 终结 符 写 所 代表 的 符号 串 。 这 
些 部 件 可 以 是 终结 符号 ， 也 可 以 是 另外 一 些 非 终 结 符 号 所 代表 的 串 。 一 
个 产生 式 由 头 部 《将 被 替换 的 非 终 结 符号 ) 和 产生 式 体 〈 用 来 着 换 的 文 
法 符号 串 ) 组 成 。 


e 推手 。 从 文法 的 开始 非 终 结 符号 出 发 ， 不 断 将 某 个 非 终 结 符号 葵 
换 为 它 的 茶 个 产生 式 体 的 过 程 称 为 推导 。 如 果 总 是 蔡 换 最 左 〈 最 右 ) 的 
非 终结 符号 ， 那 么 这 个 推导 就 称 为 最 左 推导 《最 右 推导 ) 。 


e 语法 分 析 树 。 一 株 语 法 分 析 树 是 一 个 推导 的 图 形 表示 。 在 推导 中 
出 现 的 每 一 个 非 终结 符号 都 在 树 中 有 一 个 对 应 结 点 。 一 个 结 点 的 子 结 氮 
就 是 在 推导 中 用 来 丛 换 该 结 点 对 应 的 非 终 结 符 写 的 文法 符号 串 。 在 同一 
终结 符 写 串 的 语法 分 析 树 、 最 左 推导 、 最 右 推 导 之 间 存 在 一 一 对 应 关 


人 vo 























e 二 义 性 。 如 末 一 个 文法 的 茶 些 终结 符号 串 有 两 棵 或 多 标语 法 分 析 
树 ， 或 者 等 价 地 说 有 两 个 或 多 个 最 左 推导 /最 右 推 导 ， 那 么 这 个 文法 就 
称 为 二 义 性 文法 。 在 实践 中 的 大 多 数 情 况 下 ， 我 们 可 以 对 一 个 二 义 性 文 
法 进行 重新 设计 ， 使 它 变 成 一 个 描述 相同 语言 的 无 二 义 性 文法 。 然 而 ， 
有 时 使 用 二 义 性 文法 并 应 用 一 些 技巧 可 以 得 到 更 加 高 效 的 语法 分 析 器 。 


。 自 顶 向 下 和 自 底 向 上 语法 分 析 。 语 法 分 析 器 通常 可 以 按照 它们 的 
工作 方式 分 为 自 项 向 下 的 (从 文法 的 开始 符号 出 发 ， 从 顶部 开始 构造 语 
法 分 析 树 ) 和 自 底 向 上 的 〈 从 构成 语法 分 析 树叶 子 结 点 的 终结 符号 串 开 
始 ， 从 底部 开始 构造 语法 分 析 树 ) 。 自 顶 向 下 的 语法 分 析 器 包括 递归 下 

















降 语法 分 析 器 和 LL 语 法 分 析 器 ， 而 最 常见 的 自 底 向 上 语法 分 析 器 是 LR 
语法 分 析 器 。 


e 文法 的 设计 。 和 上 自 底 向 上 语法 分 析 占 使 用 的 文法 相 比 ， 适 合 进行 
目 顶 回 下 语法 分 析 的 文法 通常 较 难 设计 。 我 们 必须 要 消除 文法 的 左 弟 
归 ， 即 一 个 非 终结 符号 推导 出 以 这 个 非 终 结 符 号 开头 的 符号 串 的 情况 。 
我 们 还 必须 提取 左 公 因 了 于 一 一 也 就 是 对 同一 个 非 终结 符号 的 具有 相同 的 
产生 式 体 前 绥 的 多 个 产生 式 进 行 分 组 。 


。 递归 下 降 语法 分 析 器 。 这 些 分 析 器 对 每 个 非 终结 符号 使 用 一 个 过 
程 。 这 个 过 程 查 看 它 的 输入 并 确定 应 该 对 它 的 非 终结 符号 应 用 哪个 产生 
式 。 相 应 产生 式 体 中 的 终结 符号 在 适当 的 时 候 和 输入 中 的 符号 进行 匹 
配 ， 而 产生 式 体 中 的 非 终结 符号 则 引发 对 它们 的 过 程 的 调用 。 当 选择 了 
错误 的 产生 式 时 ， 有 可 能 需要 进行 回溯。 


e LL (1) 语法 分 析 器 。 对 于 一 个 文法 ， 如 果 只 需要 得 看 下 一 个 输 
入 符号 就 可 以 选择 正确 的 产生 式 来 扩展 一 个 给 定 的 非 终结 符号 ， 那 么 这 
个 文法 就 称 为 是 LL (1)〉 的。 这 类 文法 允许 我 们 构造 出 一 个 预测 语法 分 
析 表 。 对 于 每 个 非 终 结 符号 和 每 个 向 前 看 符号 ， 这 个 表 指 明了 应 该 选择 
哪个 产生 式 。 在 某 些 或 所 有 没有 合法 产生 式 的 空 条 目 中 放置 错误 处 理 例 
程 有 助 于 实现 错误 恢复 。 


e 移入 - 归 约 语法 分 析 技 术 。 目 撒 同上 语法 分 析 器 一般 按 照 如 下 方 
式 运 行 :根据 下 一 个 输入 符号 《〈《 回 前 看 符号 ) 和 栈 中 的 内 容 ， 选 择 是 将 
下 一 个 输入 移入 栈 中 ， 还 是 将 栈 顶 部 的 茶 些 符号 进行 归 约 。 归 约 步 骤 将 
栈 顶 部 的 一 个 产生 式 体 普 换 为 这 个 产生 式 的 头 。 


e 可 行 前 级 。 在 移入 - 归 约 语法 分 析 过 程 中 ， 栈 中 的 内 容 总 是 一 个 可 
行 前 级 一 一 也 就 是 菏 个 最 右 句 型 的 前 级 ， 且 这 个 前 级 的 结尾 不 会 比 这 个 
句 型 的 句柄 的 结尾 更 靠 右 。 句 柄 是 在 这 个 句 型 的 最 右 推导 过 程 中 在 最 后 
一 步 加 入 此 句 型 中 的 子 串 。 


e 有 效 项 。 在 一 个 产生 式 的 体 中 某 处 加 上 一 个 点 就 得 到 一 个 项 。 一 
个 项 对 茶 个 可 行 前 缀 有 效 的 条 件 是 该 项 的 产生 式 被 用 来 生成 该 可 行 前 绥 
对 应 的 句 型 的 句柄 ， 且 这 个 可 行 前 缀 中 包括 项 中 位 于 点 左边 的 所 有 符 
号 ， 但 是 不 包含 点 右边 的 任何 符号 。 


e LR 语 法 分 析 器 。 每 一 种 LR 语 法 分 析 器 都 首先 构造 出 各 个 可 行 前 绥 


















































的 有 效 项 的 项 集 ( 称 为 LR 状态 ) ， 并 且 在 栈 中 跟踪 每 个 可 行 前 级 的 状 
态 。 有 效 项 集合 引导 语法 分 析 器 做 出 移入 - 归 约 决定 。 如 果 项 集中 菏 个 
有 效 项 的 点 在 产生 式 体 的 最 右 端 ， 那 么 我 们 惑 进行 归 约 :如果 下 一 个 输 
入 符号 出 现在 茶 个 有 效 项 的 点 的 右边 ， 我 们 就 会 把 加 前 看 符号 移入 栈 


O 


e@ 简单 LR 语法 分 析 器 。 在 一 个 SLR 语 法 分 析 器 中 ， 我 们 按照 某 个 点 
在 最 右 端的 有 效 项 进行 归 约 的 条 件 是 : 辣 前 看 符号 能 够 在 某 个 句 型 中 跟 
在 该 有 效 项 对 应 的 产生 式 的 头 符号 的 后 面 。 如 果 没 有 语法 分 析 动 作 冲 
突 ， 那 么 这 个 文法 就 是 SLR 的 ， 就 可 以 应 用 这 个 方法 。 所 谓 没 有 语法 分 
析 动 作 冲 突 ， 就 是 说 对 于 任意 项 集 和 任意 向 前 看 符号 ， 都 不 存在 两 个 要 
归 约 的 产生 式 ， 也 不 会 同时 存在 归 约 或 移入 的 可 选 动作 。 


e@ 规范 LR 语法 分 析 器 。 这 是 一 种 更 复杂 的 LR 语法 分 析 器 。 它 使 用 的 
项 中 增加 了 一 个 向 前 看 符号 集合 。 当 应 用 这 个 产生 式 进行 归 约 时 ， 下 一 
个 输入 符号 必须 在 这 个 集合 中 。 只 有 当 存 在 一 个 点 在 最 右 端 的 有 效 项 ， 
并 且 当 前 的 向 前 看 符号 是 这 个 项 允许 的 向 前 看 符号 之 一 时 ， 我 们 才 可 以 
决定 按照 这 个 项 的 产生 式 进 行 归 约 。 一 个 规范 LR 语 法 分 析 器 可 以 避免 
某 些 在 SLR 语 法 分 析 器 中 出 现 的 分 析 动 作 冲 突 ， 但 是 它 的 状态 常常 会 比 
同一 个 文法 的 SLR 语 法 分 析 器 的 状态 更 多 。 


e@ 向 前 看 LR 语法 分 析 器 。LALR 语 法 分 析 器 同时 具有 SLR 语 法 分 析 
器 和 规范 LR 语法 分 析 器 的 很 多 优点 。 它 将 具有 相同 核心 (忽略 了 相关 
向 前 看 符号 集合 之 后 的 项 的 集合 ) 的 状态 合并 到 一 起 。 因 此 ， 它 的 状态 
数量 和 SLR 语 法 分 析 器 的 状态 数量 相同 ， 但 是 在 SLR 语 法 分 析 器 中 出 现 
的 某 些 语法 分 析 动 作 冲 突 不 会 出 现在 LALR 语 法 分 析 右 中 。LALR 语 法 
分 析 器 是 实践 中 经 常 选择 的 方法 。 


@ 二 义 性 文法 的 自 底 向 上 语法 分 析 。 在 很 多 重要 的 场合 下 ， 比 如 对 
算术 表达 式 进 行 语法 分 析 时 ， 我 们 可 以 使 用 二 义 性 文法 ， 并 利用 一 些 附 
加 的 信息 ， 比 如 运算 符 的 优先 级 ， 来 解决 移入 和 归 约 之 间 的 冲突 ， 或 者 
两 个 不 同 产 生 式 之 间 的 归 约 冲突 。 这 样 ，LR 语 法 分 析 技 术 就 被 扩展 应 
用 于 很 多 二 义 性 文法 中 。 


e Yacc。 语 法 分 析 器 生成 工具 Yacc 以 一 个 (可 能 的 ) 二 义 性 文法 以 
及 冲突 解决 信息 作为 输入 ， 构 造 出 LALR 状 态 集合 。 然 后 ， 它 生成 一 个 
使 用 这 些 状 态 来 进行 目 底 同上 语法 分 析 的 函数 。 该 函数 在 执行 每 一 个 归 
约 动作 时 都 会 调用 和 相应 产生 式 关 联 的 函数 。 
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上 下 文 无 关 文 法 的 形式 化 表示 是 作为 自然 语言 研究 的 一 部 分 由 
Chomsky L5」 提 出 的 。 在 两 个 早期 语言 的 语法 描述 中 也 使 用 了 这 种 思 
想 。 这 两 个 语言 是 Backus 的 Fortran [2」 和 Naur 的 Algol 60 [26] 。 学 者 
Panini 也 在 公元 前 400 到 200 年 之 间 发 明了 一 种 等 价 的 语法 表示 方法 ， 用 
来 描述 楚 语 文法 的 规则 。 


文法 二 义 性 现象 最 早 是 由 Cantor [4] 和 Floyd [13] 观察 到 的 。 
Chomsky 范 式 〈 练 习 4.4.8) 的 思想 来 自 [6] 。 [17] 中 总 结 了 上 下 文 
无 关 文 法 的 理论 。 


递归 下 降 语 法 分 析 技 术 是 早期 编译 器 (比如 [16] ) 和 编译 器 编写 
系统 (比如 META [28] 和 TMG [25]」， 所 选择 的 方法 。LL 文 法 由 
Lewis 和 Stearns [24] 引入 。 练 习 4.4.5 中 的 递归 下 降 方 法 的 线性 时 间 模 
习 方 尖 来 目 3] 5 


由 Floyd [14] 提出 的 最 早 的 一 种 语法 分 析 技 术 考 虑 了 运算 符 的 优 
先 级 问题 。Wirth 和 Weber [29」 将 这 个 思想 推广 到 了 语言 中 不 包含 运算 
符 的 部 分 。 现 在 已 经 很 少 使 用 这 些 技 术 了 ， 但 是 它们 可 以 被 看 作 是 使 
LR 分 析 技 术 取 得 进展 的 先驱 技术 。 


LR 语法 分 析 器 是 由 Knuth [22」 引入 的 ， 该 著作 首先 给 出 了 规范 - 
LR 语法 分 析 表 。 因 为 这 个 语法 分 析 表 要 比 当时 常用 计算 机 的 主 存 大 ， 
所 以 这 个 方法 被 认为 不 可 行 的 ， 直 到 Korenjak [23] 给 出 了 一 个 方法 来 
为 典型 的 程序 设计 语言 生成 适当 大 小 的 语法 分 析 表 。DeRemer 发 明了 现 
在 使 用 的 LALR [8] 和 SLR [9j 方法 。 为 二 义 性 文法 构造 LR 语法 分 析 
表 的 方法 来 自 L1」 和 [12] 。 


Jonhson 的 Yacc 很 快 证 明了 使 用 LALR 语 法 分 析 器 生成 工具 来 为 编译 
器 产品 生成 语法 分 析 器 的 可 行 性 。Yacc 语 法 分 析 器 生成 工具 的 使 用 手册 
可 以 在 [20] 中 找到 。 在 L10] 中 描述 了 Yacc 的 开源 版 本 Bison。 一 个 
类 似 的 基于 LALR 技 术 的 语法 分 析 器 生成 工具 被 称 为 CUP [18」， 它 支 
持 用 Java 编 写 的 语义 动作 。 自 顶 回 下 语法 分 析 器 生成 工具 包括 
Antlr [27]」 和 LLGen。Antlr 是 一 个 递归 下 降 语 法 分 析 器 生成 工具 ， 它 接 











受 以 C++、Java 或 C# 编 写 的 语义 动作 。LLGen 是 一 个 基于 LL [1] 的 生 
成 工具 。 


Dain [7j」 给 出 了 一 个 关于 语法 错误 处 理 的 文献 列表 。 


练习 4.4.9 中 描述 的 通用 动态 规划 语法 分 析 算 法 是 由 J.Cocke (未 发 
表 ) 和 Younger [30] 以 及 Kasami [21]」 各 上 自 独立 发 明 的 ， 因 此 被 命名 
为 “CYK 算 法 ”。Earley [11] 还 发 明了 一 种 更 加 复杂 的 通用 算法 ， 它 以 
表格 的 方式 给 出 一 个 给 定 输入 的 各 个 子 串 的 LR- 项 。 虽 然 这 个 算法 在 一 
般 情况 下 的 复杂 度 是 O (mm ) ， 但 是 对 于 无 二 义 性 文法 ， 它 的 复杂 度 只 
有 O (nm) 。 
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[1]E 和 S$ 的 下 标 仅 用 于 区 分 同一 个 非 终 结 符号 的 不 同 出 现 ， 并 不 表 
示 不 同 的 非 终 结 符号 。 


[2 我们 应 该 注意 到 ，C 语 言 和 它 的 派生 语言 也 属于 这 一 类 语言 。 虽 


然 C 系 列 的 语言 不 使 用 关键 字 then， 但 then 的 作用 是 由 if 之 后 的 条 件 表 
达 式 的 括号 对 来 承担 的 。 


[3] 从 技术 上 讲 ， 根 据 3. 6. 4 市 的 定义 ， 这 个 自动 机 并 不 是 确定 自动 
机 ， 因 为 我 们 没有 对 应 于 空 项 集 的 死 状态 。 结 有 果 是 有 一 些 状态 -输入 对 
没有 后 继 状 态 。 


[4] 其 逆 命 题 不 一 定 成 立 。 也 就 是 说 ， 多 个 状态 可 能 对 应 于 同一 个 
文法 符号 。 例 如 ， 图 4~31 中 的 LR (0) 自动 机 的 状态 1 和 8， 进 入 它们 的 
都 是 E 上 的 转换 ; 而 对 于 状态 2 和 9， 它 们 都 是 通过 T 上 的 转换 进入 。 


[5]2. 8. 3 节 介 绍 过 ， 一 个 左 值 表 示 了 一 个 内 存 位 置 ， 而 右 值 是 一 个 
可 以 存放 在 某 个 位 置 上 的 值 。 


[6] 当然 可 以 使 用 长 度 大 于 1 的 向 前 看 符号 事 。 但 是 这 里 我 们 不 考虑 
这 样 的 向 前 看 符号 串 。 


第 5 革 语法 制 叶 的 翻译 


本 章 继 续 2.3 市 的 主题 ,使 用 上 下 文 无 天 文法 来 引导 对 语言 的 翻 
译 。 本 章 讨 论 的 翻译 技术 将 在 第 6 章 中 用 于 类 型 检查 和 中 间 代 码 生 成 。 
这 些 技术 也 可 以 用 于 实现 那些 完成 特殊 任务 的 小 型 语言 。 本 章 包 含 了 一 
个 有 关 排 版 的 例子 。 


如 2.3.2 节 所 讨论 的 ， 我 们 把 一 些 铬 性 附加 到 代表 语言 构造 的 文法 符 
号 上 ， 从 而 把 信息 和 一 个 语言 构造 联系 起 来 。 语 法 制导 定义 通过 与 文法 
产生 式 相 关 的 语义 规则 来 描述 属性 的 值 。 比 如 ， 一 个 从 中 绥 表 达 式 到 后 
缀 表达 式 的 翻译 器 可 能 包含 如 下 产生 式 和 规则 : 


产生 式 语义 规则 
EE+i+T E.code = Ei.code || T.code || ‘+ (5.1) 





这 个 产生 式 有 两 个 非 终结 符号 E 和 T，E; 的 下 标 用 于 区 分 E 在 产生 式 
体 中 的 出 现 和 E 在 产生 式 头 部 的 出 现 。E 和 T 都 有 一 个 字符 串 类 型 的 属性 
code。 上 面 的 语义 规则 指明 字符 串 E.code 是 通过 将 E1.code、T.code 和 字 
从 + 连接 起 来 而 得 到 的 。 昌 然 这 个 规则 明确 指出 对 E 的 翻译 结果 是 根据 
E1、 了 的 翻译 结果 和 “+” 构 造 得 到 的 ， 但 直接 通过 字符 串 操 作 来 实现 这 个 
翻译 过 程 是 很 低 效 的 。 


根据 2.3.5 区 的 介绍 可 知 ， 语 法 制导 的 翻译 方案 在 产生 陈 体 中 藤 入 了 
称 为 语义 动作 的 程序 片段 。 比 如 


EE+T {print'+ } (5.2) 


按照 惯例 ， 语 义 动作 放 在 花 括号 之 内 。【〔 对 于 作为 文法 符号 出 现 的 
花 括号 ， 我们 将 用 单 引号 把 它们 括 起 来 ， 比 如 “和?。) 一 个 语义 动 
作 在 产生 式 体 中 的 位 置 决定 了 这 个 动作 的 执行 顺序 。 在 产生 式 〈5.2) 
中 ， 语 义 动 作出 现在 所 有 文法 符号 之 后 。 一 般 情 况 下 ， 语 义 动 作 可 以 出 
现在 产生 式 体 中 的 任何 位 置 。 


对 于 这 两 种 标记 方法 ， 语 法 制导 定义 更 加 易 读 ， 因 此 更 适合 作为 对 
翻译 的 规约 。 而 翻译 方 采 更 加 高 效 ， 因 此 更 适合 用 于 翻译 的 实现 。 








最 通用 的 完成 语法 制导 翻译 的 方法 是 先 构 造 一 柠 语 法 分 析 树 ， 然 后 
通过 访问 这 柠 树 的 各 个 结 点 来 计算 结 点 的 属性 值 。 在 很 多 情况 下 ， 翻 译 
可 以 在 扫描 分 析 过 程 中 完成 ， 不 需要 构造 出 明确 的 语法 分 析 树 。 因 此 ， 
我 们 将 研究 一 类 称 为 所 属性 翻译 ”(L 代 表 从 左 到 右 ) 的 语法 制导 翻译 方 
和 案 ， 这 一 类 方案 实际 上 包含 了 所 有 可 以 在 语法 分 析 过 程 中 完成 的 翻译 方 
和 案 。 我 们 还 将 研究 一 个 较 小 的 类 别 ， 称 为 "S 属 性 翻译 方案 ”(S 代 表 纤 
合 ) ， 这 类 方案 可 以 很 容易 地 和 目 底 和 同上 语法 分 析 过 程 联 系 起 来 。 

















5.1 请 法 市 性 定义 


语法 制导 定义 (Syntax-Directed Definition，SDD) 是 一 个 上 下 文 无 
关 文 法 和 属性 及 规则 的 结合 。 属 性 和 文法 符号 相关 联 ， 而 规则 和 产生 式 
相关 联 。 如 果 X 是 一 个 符号 而 a 是 X 的 一 个 属性 ， 那 么 我 们 用 X.a 来 表示 a 
在 某 个 标号 为 X 的 分 析 树 结 点 上 的 值 。 如 果 我 们 使 用 记录 或 对 象 来 实现 
这 个 语法 分 析 树 的 结 点 ， 那 么 X 的 属性 可 以 被 实现 为 代表 X 的 结 点 的 记 
录 的 数据 字段 。 属 性 可 以 有 多 种 类 型 ， 比 如 数字 、 类 型 、 表 格 引 用 或 
ee 比如 编译 器 使 用 的 中 间 语 言 的 











5.1.1 继承 属性 和 综合 属性 


我 们 将 处 理 非 终结 符号 的 两 种 属性 : 


1) 综合 属性 (synthesized attribute) : 在 分 析 树 结 点 N 上 的 非 终 结 
符号 A 的 综合 属性 是 由 N 上 的 产生 式 所 关联 的 语义 规则 来 定义 的 。 请 注 
意 ， 这 个 产生 式 的 头 一 定 是 A。 结 点 N 上 的 综合 属性 只 能 通过 N 的 子 结 点 
或 N 本 吴 的 属性 值 来 定义 。 


2) 继承 属性 (inherited attribute) : 在 分 析 树 结 点 N 上 的 非 终 结 符 
号 也 的 继承 属性 是 由 N 的 父 结 点 上 的 产生 式 所 关联 的 语义 规则 来 定义 
的 。 请 注意 ， 这 个 产生 式 的 体 中 必然 包含 符号 B。 结 点 N 上 的 继承 属性 
只 能 通过 N 的 父 结 点 、N 本 身 和 N 的 兄弟 结 点 上 的 属性 值 来 定义 。 











男 一 种 定义 继承 属性 的 方法 


即使 我 们 允许 结 点 N 上 的 一 个 继承 属性 B.c 通 过 N 的 子 结 点 、N 本 
和 、N 的 父 结 点 和 兄 第 结 点 上 的 属性 值 来 定义 ， 我 们 可 以 定义 的 翻译 
的 种 类 并 不 会 增加 。 这 样 的 规则 可 以 通过 创建 附加 的 B 的 属性 ， 比 如 
B.c1、B.c。、.… 来 模拟 。 这 些 部 是 综合 属性 ， 用 于 把 标 写 为 B 的 结 点 


的 子 结 扩 上 的 属性 找 贝 过 来 。 然 后 ， 我 们 使 用 属性 B.c1/、B.c。、... 来 
伏 换 子 结 反 属性 ， 按 照 继 承 属性 的 方法 计算 得 到 B.c。 在 实践 中 很 少 
需要 这 种 属性 。 





我 们 不 允许 结 点 N 上 的 继承 属性 通过 N 的 子 结 点 上 的 属性 值 来 定 
义 ， 但 是 我 们 允许 结 点 N 上 的 一 个 综合 属性 通过 结 点 N 本 里 的 继承 属性 
终结 符 写 可 以 具有 综合 属性 ， 但 是 不 能 有 继承 属性 。 终 0 
与 


性 值 是 由 词法 分 析 霹 提供 的 词法 值 ， 在 SDD 中 没有 计算 终结 符号 的 属 
值 的 语义 规则 。 


二 图 5-1 中 的 SDD 基 于 我 们 熟悉 的 带 有 运算 符 * 和 + 的 算术 表达 式 文 
法 。 它 对 一 个 以 n 作 为 结尾 标记 的 表达 式 求 值 。 在 这 个 SDD 中 ， 每 个 非 
终结 符号 具有 唯一 的 被 称 为 val 的 综合 属性 。 我 们 同时 假设 终结 符号 digit 
具有 一 个 综合 属性 lexval， 它 是 由 词法 分 析 器 返回 的 整数 值 。 


| | 


L— En L.val = E.val 
EE + | E.val= Ei.valtT.val 
五 一 人 E.val = T.val 





TT *rF T.val = Ti.val x F.val 
下 一 下 T.val = F.val 

Fo >(E) F.val = E.val 

上 一 digit F.val = digit.lexval 





图 5-1 一 个 简单 的 桌 上 计算 器 的 语法 制导 定义 


产生 式 1L- 了 En 的 规则 将 L.val 设 置 为 E.val。 我 们 将 看 到 ， 它 束 是 整 
个 表达 式 的 值 。 


产生 式 2 EE1+T 也 有 一 个 规则 。 它 计算 出 Ey 和 T 的 值 的 和 ， 作 为 产 
生 式 头 E 的 val 属 性 的 值 。 在 任何 标号 为 E 的 语法 分 析 树 结 点 N 上 ， 王 的 val 
值 是 N 的 两 个 子 结 点 《标号 分 别 为 E 和 T) 上 的 val 值 的 和 。 





产生 式 3E-T 有 唯一 的 规划 ， 它 定义 了 E 的 val 值 和 对 应 于 T 的 子 结 
所 的 val 值 相同 。 产 生 式 4 和 第 二 个 产生 式 类 似 ， 它 的 规则 将 子 结 反 的 值 
相 乘 ， 而 不 是 相 加 。 产 生 式 5 和 6 的 规则 和 第 三 个 产生 陈 的 规则 类 似 ， 它 
们 拷贝 子 结 点 的 值 。 产 生 式 7 给 F.val 赋 予 一 个 digit 的 值 ， 即 由 词法 分 析 
融 返 回 的 词法 单元 digit 的 数值 。 


-个 只 包含 综合 属性 的 SDD 称 为 属性 (S-attribute〉 的 SDD， 图 5-1 
中 的 SDD 就 具有 这 个 性 质 。 在 一 个 S 属 性 的 SDD 中 ， 每 个 规则 都 根据 相 
人 











为 简单 起 见 ， 本 市 中 的 语义 规则 没有 副作用 。 在 实践 中 ， 人 允许 SDD 
具有 一 些 副 作用 会 带 来 一 些 方便 。 比 如 允许 打印 桌 上 计算 器 计算 得 到 的 
结果 ， 或 者 和 一 个 符号 表 进 行 交互 。 等 到 在 5.2 节 中 讨论 了 属性 的 求 值 
a 我 们 将 允许 语义 规则 计算 任意 的 函数 ， 这 些 函 数 可 能 会 有 副 


一 个 S 属 性 的 SDD 可 以 和 一 个 LR 语法 分 析 器 一 起 自然 地 实现 。 实 际 
上 ， 图 5-1 中 的 SDD 是 图 4-58 中 的 Yacc 程 序 的 另 一 种 表示 ， 该 程序 演示 
了 在 LR 语法 分 析 过 程 中 进行 翻译 的 过 程 。 两 者 的 区 别 在 于 ，Yacc 程 序 
在 产生 式 1 的 规则 中 通过 副作用 打印 了 E.val 的 值 ， 而 不 是 定义 属性 
L.val。 


一 个 没有 副作用 的 SDD 有 时 也 称 为 铬 性 文法 (attribute grammar) 。 
一 个 属性 文法 的 规则 仅仅 通过 其 他 属性 值 和 常量 值 来 定义 一 个 属性 值 。 








5.1.2 ”在 语法 分 析 树 的 结 点 上 对 SDD 求 值 





在 语法 分 析 树 上 进行 求 值 有 助 于 将 SDD 所 描述 的 翻译 方案 可 视 化 ， 
里 然 翻 译 右 实际 上 不 需要 构建 语法 分 析 树 。 因 此 ， 我 们 想象 一 下 在 应 用 
一 个 SDD 的 规则 之 前 首先 构造 出 一 棵 语法 分 析 树 ， 然 后 再 使 用 这 些 规则 
对 这 棵 语法 分 析 树 上 的 各 个 结 点 上 的 所 有 属性 进行 求 值 。 一 个 显示 了 它 
的 各 个 属性 的 值 的 语法 分 析 树 称 为 注释 语法 分 析 树 (annotated parse 


tree) 。 


我 们 如 何 构 造 一 柠 注 释 语法 分 析 树 呢 ? 我 们 按照 什么 顺序 来 计算 各 








个 属性 ? 在 我 们 对 一 柠 语 法 分 析 树 的 某 个 结 点 的 一 个 属性 进行 求 值 之 
前 ， 必 须 首 先 求 出 这 个 属性 值 所 依赖 的 所 有 属性 值 。 比 如 ， 如 例 5.1 所 
示 ， 上 所 有 的 属性 都 是 综合 属性 ， 那 么 在 我 们 对 一 个 结 点 上 的 val 属 性 求 
值 之 前 ， 必 须 求 出 该 结 点 的 所 有 子 结 点 的 属性 val 的 值 。 


对 于 综合 属性 ， 我 们 可 以 按照 任何 上 自 底 同上 的 顺序 计算 它们 的 值 ， 
ee 
5.2.3 节 中 讨论 。 














对 于 同时 具有 继承 属性 和 综合 属性 的 SDD， 不 能 保证 有 一 个 顺序 来 
对 各 结 点 上 的 属性 进行 求 值 。 比 如 ， 考 虑 非 终 结 符号 A 和 B， 它 们 分 别 
具有 综合 属性 A.s 和 继承 属性 B.i。 同 时 它们 的 产生 式 和 规则 如 下 : 


三 年 式 语义 规则 
4 一 也 A.s = B.i: 
B.i= A.s++]1 


这 些 规则 是 循环 定义 的 。 不 可 能 首先 求 出 结 点 N 上 的 A.s 或 N 的 子 结 
点 上 的 B.i 中 的 一 个 的 值 ， 然 后 再 求 出 另 一 个 的 值 。 一 棵 语法 分 析 树 的 某 
个 结 点 对 上 的 As 和 B.i 之 间 的 循环 依赖 关系 如 图 5-2 所 示 。 


图 5-2 A. s 和 B. i 之 间 的 循环 依赖 


从 计算 的 角度 看 ， 给 定 一 个 SDD， 很 难 确定 是 否 存在 某 棵 语法 分 析 
树 使 得 SDD 的 属性 值 之 间 具 有 循环 依赖 关系 出 。 幸 运 的 是 ， 存 在 一 个 
SDD 的 有 用 子 类 ， 它 们 能 够 保证 对 每 棵 语法 分 析 树 都 存在 一 个 求 值 顺 
序 。 我 们 将 在 5.2 节 中 介绍 这 类 SDD。 


pa 图 5-3 显 示 了 一 个 对 应 于 输入 串 3*5+4n 的 注释 语法 分 析 树 ， 该 
分 析 码 是 利用 图 5-1 的 文法 和 规则 构造 得 到 的 。 我 们 假定 lexval 的 值 由 词 
法 分 析 器 提供 。 对 应 于 非 终结 符号 的 每 个 结 点 都 有 一 个 按 自 底 向 上 顺序 
计算 得 到 的 val 属 性 。 在 图 中 我 们 可 以 看 到 每 个 结 点 都 关联 了 一 个 结果 
值 。 比 如 ， 在 图 中 结 点 * 的 父 结 点 上 ， 当 计算 得 到 它 的 第 一 和 第 三 个 子 
结 点 上 的 T.val=3 和 F.val=5 之 后 ， 我 们 应 用 了 相应 的 规则 ， 指 明 T.val 整 
是 这 两 个 值 的 乘积 ， 即 15。 


当 一 标语 法 分 析 树 的 结构 和 源 代 码 的 抽象 语法 不 “匹配 ?时 ， 继 承 属 
性 是 很 有 用 的 。 因 为 文法 不 是 为 了 翻译 而 定义 的 ， 而 是 以 语法 分 析 为 目 
的 进行 定义 的 ， 因 此 可 能 会 产生 这 种 不 匹配 的 情况 。 下 面 的 例子 显示 了 
如 何 使 用 继承 属性 来 解决 这 个 问题 。 

















E.val= 15 十 T.val= 4 
| 
T.val= 15 F.val= 4 
T.val=3 * Fval=5 digit.lexvval= 4 
| 
F.val= 3 digit.lerval = 5 


digit.lerval = 3 
图 5-3 ”3*5+4n 的 注释 语法 分 析 树 
图 5-4 中 的 SDD 计 算 诸如 3*5 和 3*5*7 这 样 的 项 。 处 理 输 入 3*5 的 
页 问 下 语法 分 析 过 程 首先 使 用 了 产生 式 T- FT'。 这 里 ，EF 生 成 了 数位 
3， 但 是 运算 符 * 由 T’ 生 成 。 因 此 ， 左 运算 分 量 3 和 运算 符 * 位 于 不 同 的 子 
树 中 。 我 们 将 使 用 一 个 继承 属性 来 把 这 个 运算 分 量 传递 给 运算 符 *。 


1) ToOFT T'.inh = F.val 
T.val = T'.syn 





2) T= >*FT Ti.inh=T'.inh x F.val 
T'.syn = Ti .syn 


3) 全 一 6 T'.syn = 了 .2 办 


4) Fo digit F.val = digit.lerval 





图 5-4 ”一 个 基于 适用 于 自 顶 向 下 语法 分 析 的 文法 的 SDD 


这 个 例子 中 的 文法 摘 目 利 见 的 表达 式 文法 的 无 左 递归 版 本 ， 我 们 在 
4.4 贡 中 使 用 这 个 文法 作为 说 明 目 顶 回 下 语法 分 析 的 例子 。 


非 终 结 符 写 T 和 F 各 自 有 一 个 综合 属性 val， 终 结 符 写 digit 有 一 个 综 
合 属性 lexval。 非 终结 符号 工具 有 两 个 属性 : 继承 属性 inh 和 综合 属性 
syn。 


这 些 语义 规则 基于 如 下 思想 : 运算 符 * 的 左 运算 分 量 是 通过 继承 得 
到 的 。 更 准确 地 说 ， 产 生 式 T'* 7F1 的 头 T' 继 承 了 产生 式 体 中 * 的 左 运 
算 分量 。 给 定 一 个 项 x*y*z， 对 应 于 *y*z 的 子 树 的 根 结 点 继承 了 x 的 值 。 
对 应 于 *z 的 子 树 的 根 结 点 继承 了 x*y 的 值 。 如 果 项 中 还 有 更 多 的 因子 ， 
我 们 可 以 继续 这 样 的 处 理 过 程 。 当 所 有 的 因子 都 处 理 完毕 后 ， 这 个 结果 
就 通过 综合 属性 同上 传递 到 树 的 根部 。 


为 了 了 解 如 何 使 用 这 些 语义 规则 ， 考 虑 图 5-5 中 对 应 于 3*5 的 注释 语 
法 分 析 树 。 这 标语 法 分 析 树 中 最 左边 的 标号 为 digit 的 叶子 结 点 具有 属性 
值 lexval=3， 其 中 的 3 是 由 词法 分 析 器 提供 的 。 它 的 父 结 点 对 应 于 产生 式 
4， 即 F -digit。 和 这 个 产生 式 相 关 的 唯一 语义 规则 定义 
F.val=digit.lexval， 等 于 3。 























T.val= 15 
Paik=3 
F.val= 3 T'.syn = 15 
ee” Ti.inh = 15 
digit.lerval = 3 * F.val=5 TY = 折 
digit.lerval = 5 € 


图 5-5 3#5 的 注释 语法 分 析 树 


在 根 结 点 的 第 二 个 子 结 点 上 ， 继 承 属 性 T.inh 根 据 和 产生 式 1 关联 的 
语义 规则 T'.inh=F.val 定 义 。 因 此 ， 运 算 符 * 的 左 运算 分 量 3 从 根 结 点 的 左 
子 结 点 传 弟 到 右 子 结 点 。 


对 应 于 T' 的 结 点 的 产生 式 是 7' 一 * FT 。 “我们 保留 了 注释 语法 分 析 
树 中 的 下 标 1， 以 区 分 树 中 的 两 个 T' 结 点 。〉 继 承 属性 71.im 是 由 语义 规 
则 Ti.inh = T'.inh x F.val 定义 的 ， 这 个 规则 和 产生 式 2 相 关联 。 


己 知 T'.inh=3 且 F.val=5， 我 们 得 到 7Y. inh = 15。 在 层次 较 低 的 71 
结 点 上 的 产生 式 是 T'-E 。 相 应 的 语义 规则 T'.syn = T'.inh 定 义 了 
71. syn=15。 各 个 T' 结 点 上 的 属性 syn 将 值 15 沿 着 树 向 上 传递 到 T 结 点 ， 
使 得 T.val = 15。 


5.1.3” ”5.1 节 的 练习 

练习 5.1.1: 对 于 图 5-1 中 的 SDD， 给 出 下 列表 达 式 对 应 的 注释 语法 
分 析 树 : 

1) (3+4) * (5+6) n 

2) 1*2*3* (4+5) n 

3). (9t8* (74+6) +5) “dn 


练习 5.1.2: 扩展 图 5-4 中 的 SDD， 使 它 可 以 像 图 5-1 所 示 的 那样 处 理 
a 


练习 5.1.3: 使 用 你 在 练习 5.1.2 中 得 到 的 SDD， 重 复 练习 5.1.1。 


5.2 SDD 的 求 值 顺序 


依赖 图 (dependency graph) 是 一 个 有 用 的 工具 ， 它 可 以 确定 一 标 
给 定 的 语法 分 析 树 中 各 个 属性 实例 的 求 值 顺序 。 注 释 语法 分 析 树 显示 了 
各 个 属性 的 值 ， 而 依赖 图 可 以 帮助 我 们 确定 如 何 计算 这 些 值 。 


在 本 节 中 ， 除 了 依赖 图 ， 我 们 还 定义 了 两 类 重要 的 SDD: “S 属 
性 ?*SDD 和 更 加 通用 的 所 属性 5SDD。 使 用 这 两 类 SDD 描 述 的 翻译 方案 可 
以 和 我 们 已 经 研究 过 的 语法 分 析 方 法 很 好 地 结合 在 一 起 。 并 且 在 实践 中 
的 大 部 分 翻译 方案 可 以 按照 这 两 类 SDD 中 的 至 少 一 类 的 要 求 写 出 





5.2.1 ”依赖 图 


依赖 图 描述 了 茶 个 语法 分 析 树 中 的 属性 实例 之 间 的 信息 流 。 从 一 个 
属性 实例 到 另 一 个 实例 的 边 表示 计算 第 二 个 属性 实例 时 需要 第 一 个 属性 
实例 的 值 。 图 中 的 边 表示 语义 规则 所 级 涵 的 约束 。 更 详细 地 说 : 


。 对 于 每 个 语法 分 析 树 的 结 点 ， 比 如 一 个 标号 为 文法 符号 X 的 结 点 ， 
和 X 关 联 的 每 个 属性 都 在 依赖 图 中 有 一 个 结 点 。 

假设 和 产生 式 p 关 联 的 语义 规则 通过 X.c 的 值 定 义 了 综合 属性 A.b 的 
值 ( 这 个 规则 定义 A.b 时 可 能 还 用 到 了 X.c 之 外 的 其 他 属性 ) 。 那 
么 ， 相 应 的 依赖 图 中 有 一 条 从 X.c 到 A.b 的 边 。 更 准确 地 讲 ， 在 每 个 
标号 为 A 且 应 用 了 产生 式 p 的 结 点 N 上 ， 创 建 一 条 从 该 产生 式 体 中 的 
符号 X 的 实例 所 对 应 的 N 的 子 结 点 上 的 属性 c 到 N 上 的 属性 b 的 边 。 乌 
假设 和 产生 式 p 关 联 的 一 个 语义 规则 通过 X.a 的 值 定义 了 继承 属性 
B.c 的 值 。 那 么 ， 在 相应 的 依赖 图 中 有 一 条 从 X.a 到 B.c 的 边 。 对 于 每 
个 标号 为 B、 对 应 于 产生 式 p 中 的 这 个 B 的 结 点 N， 创 建 一 条 从 结 点 
M 上 的 属性 a 到 N 上 的 属性 c 的 边 。 这 里 的 M 对 应 于 这 个 X。 请 注意 ， 
M 可 以 是 N 的 父 结 点 或 者 兄 第 结 斥 。 


考虑 下 面 的 产生 式 和 规则 ; 


广 生 式 语义 规则 
EE+i+71 E.val = Ei.val + T.val 


在 每 个 标号 为 E， 且 其 子 结 点 对 应 于 这 个 产生 式 体 的 结 点 N 上 ，N 上 
的 综合 属性 val 使 用 两 个 子 结 上 标号 分 别 为 E 和 T)〉 上 的 val 值 计算 得 
到 。 因 此 ， 对 于 每 个 使 用 了 这 个 产生 式 的 语法 分 析 树 ， 该 树 的 依赖 图 中 
有 一 部 分 如 图 5-6 所 示 。 作 为 惯例 ， 我 们 将 把 语法 分 析 树 的 边 显示 为 虚 
线 ， 而 依赖 图 的 边 显 示 为 实 线 。 








E: wal 


图 5-6 E. val 由 E1. val 和 T. val 综 合 得 到 


一 个 完整 的 依赖 图 的 例子 如 图 5-7 所 示 。 这 个 依赖 图 的 结 点 用 数 
笠 1 一 9 表示 ， 对 应 于 图 5-5 中 的 注释 语法 分 析 树 中 的 各 个 属性 。 


TT 9 val 
F i | 


digit 1 lezval * F477l 





digit 2 lerval e 
图 5-7 ”对 应 于 图 5-5 中 的 注释 语法 分 析 树 的 依赖 图 


结 点 1 和 2 表示 和 其 标号 为 digit 的 两 个 叶子 结 点 相关 联 的 属性 
lexval。 结 点 3 和 4 表示 和 其 标号 为 F 的 两 个 结 点 相关 联 的 属性 val。 从 结 
点 1 到 结 点 3 的 边 ， 以 及 从 结 点 2 到 结 点 4 的 边 是 根据 通过 SDD 中 
digit.lexval 定 义 F.val 的 语义 规则 得 到 的 。 实 际 上 ，F.val 等 于 
digit.lexval， 但 依赖 图 中 的 边 表 示 的 是 依赖 关系 ， 而 不 是 等 于 关系 。 


结 点 5 和 6 表示 和 非 终结 符号 工 的 各 次 出 现 相 关联 的 继承 属性 T.inh。 
从 结 点 3 到 结 点 5 的 边 是 根据 规则 T.inh=F.val 得 到 的 ， 这 个 规则 根据 根 的 
左 子 结 点 上 的 F.val 定 义 了 右 子 结 皮 上 的 T'.inh。 我 们 看 到 了 从 结 点 5 到 结 
扩 6 的 代表 T'.inh 的 边 和 从 结 点 4 到 结 扣 5 的 代表 F.val 的 边 ， 因 为 这 两 个 值 
相 乘 后 得 到 了 结 点 6 上 的 属性 inh 的 值 。 


结 点 7 和 8 表示 了 和 T' 的 各 次 出 现 相关 联 的 综合 属性 syn。 从 结 点 6 到 
结 点 7 的 边 是 根据 图 5-4 中 的 产生 式 3 所 关联 的 规则 T'.syn=T'.inh 得 到 的 。 
从 结 反 7 到 结 点 8 的 边 是 根据 产生 式 2 所 关联 的 语义 规则 得 到 的 。 


最 后 ， 结 点 9 表示 属性 T.val。 从 结 点 8 到 结 点 9 的 边 是 根据 产生 式 1 所 
关联 的 语义 规则 T.val=T'.syn 而 得 到 的 。 





5.2.2 ”属性 求 值 的 顺序 


依赖 图 刻画 了 对 一 标语 法 分 析 树 中 不 同 结 点 上 的 属性 求 值 时 可 能 采 
取 的 顺序 。 如 果 依 赖 图 中 有 一 条 从 结 点 M 到 结 点 N 的 边 ， 那 么 要 先 对 M 
对 应 的 属性 求 值 ， 再 对 N 对 应 的 属性 求 值 。 因 此 ， 所 有 的 可 行 求 值 顺序 
就 是 满足 下 列 条 件 的 结 点 顺序 Nij、N*、..…、Nk: 如 果 有 一 条 从 结 点 N; 
到 N; 的 依赖 图 的 边 ， 那 么 i<j。 这 样 的 排序 将 一 个 有 向 图 变 成 了 一 个 线性 
排序 ， 这 个 排序 称 为 这 个 图 的 拓扑 排序 〈topological sort) 。 


如 果 这 个 图 中 存在 任意 一 个 坏 ， 那 么 束 不 存在 拓扑 排序 。 也 就 是 
说 ， 没 有 办 法 在 这 棵 语法 分 析 树 上 对 相应 的 SDD 求 值 。 然 和 而， 如 宁 图 中 
没有 环 ， 那 么 总 是 至 少 存 在 一 个 拓扑 排序 。 下 面 说 明 一 下 为 什么 会 存在 
拓扑 排序 。 因 为 没有 坏 ， 所 以 我 们 一 定 能 够 找到 一 个 没有 边 进入 的 结 
扩 。 假 设 没 有 这 样 的 结 点 ， 那 么 我 们 束 可 以 不 断 地 从 一 个 前 驱 结 点 到 达 
另 一 个 前 驱 结 点 ， 直 到 我 们 回 到 茶 个 已 经 访问 过 的 结 点 ， 从 而 形成 了 一 
个 环 。 令 这 个 没有 进入 边 的 结 点 为 拓扑 排序 的 第 一 个 结 点 ， 从 依赖 图 中 
删除 这 个 点 ， 并 对 其 余 的 结 点 重复 上 面 的 过 程 。《〈 最 终 就 可 以 得 到 一 个 
拓扑 排序 一 一 译 者 注 。) 


图 5-7 中 的 依赖 图 没有 坏 。 它 的 拓扑 排序 之 一 是 这 些 结 扣 的 编码 
J 员 序 ，1、2、...、9。 请 注意 ， 这 个 图 的 每 条 边 都 是 从 编写 较 低 的 结 
扩 指 问 编 号 较 高 的 结 点 ， 因 此 这 个 排序 一 定 是 拓扑 排 厅 。 还 有 其 他 的 拓 














扑 排序 ， 比 如 1、3、5、2、4、6、7、8、9。 


5.2.3 ”S 属 性 的 定义 


前 面 提 到 过 ， 给 定 一 个 SDD， 很 难 判 定 是 人 否 存 在 一 标 其 依赖 图 包含 
环 的 语法 分 析 树 。 在 实践 中 ， 翻 译 过程 可 以 使 用 某 些 特定 类 型 的 SDD 来 
实现 。 这 些 类 型 的 SDD 一 定 有 一 个 求 值 顺 序 ， 因 为 它们 不 允许 产生 市 有 
环 的 依赖 图 。 不 仅 如 此 ， 这 一 节 中 介绍 的 两 类 SDD 可 以 和 目 顶 向 下 及 目 
底 同 上 的 语法 分 析 过 程 一 起 高 效 地 实现 。 


第 一 种 SDD 类 型 的 定义 如 下 : 
。 如 宁 一 个 SDD 的 每 个 属性 都 是 综合 属性 ， 它 就 是 S 属 性 的 。 


图 5-1 中 的 SDD 是 一 个 S 属 性 定义 的 例子 。 其 中 的 每 个 属性 
L.val、E.val、T.val 和 F.val) 都 是 综合 属性 。 


如 果 一 个 SDD 是 S 属 性 的 ， 我 们 可 以 按照 语法 分 析 树 结 点 的 任何 目 
底 向 上 顺序 来 计算 它 的 各 个 属性 值 。 对 语法 分 析 树 进行 后 序 遍 历 并 对 属 
性 求 值 钊 第 会 非常 简单 ， 当 过 历 最 后 一 次 离开 茶 个 结 点 N 时 计算 出 N 的 
各 个 属性 值 。 也 就 是 说 ， 我 们 可 以 把 下 面 定义 的 函数 postorder 应 用 到 语 
法 分 析 树 的 根 上 《 见 2.3.4 节 中 的 “前 序 损 历 和 后 序 壳 历 ? 部 分 ) : 











postorder CN) 

{for 〈 从 左边 开始 ， 对 N 的 每 个 子 结 点 C) postorder (C) ; 
对 N 关 联 的 各 个 属性 求 值 : 

} 














S 属 性 的 定义 可 以 在 目 底 癌 上 语法 分 析 的 过 程 中 实现 ， 因 为 一 个 目 
底 问 上 的 语法 分 析 过 程 对 应 于 一 次 后 序 遇 历 。 特 别 地 ， 后 序 顺序 精确 地 
对 应 于 一 个 LR 分 析 器 将 一 个 产生 式 体 归 约 成 为 它 的 头 的 过 程 。 这 个 性 
质 将 在 5.4.2 节 中 用 于 LR 语 法 分 析 过 程 中 的 综合 属性 求 值 工作 ， 这 些 值 
将 存放 在 分 析 栈 中 。 这 个 过 程 不 会 显 式 地 创建 语法 分 析 树 的 结 反 。 





5.2.4 工 属性 的 定义 


第 二 种 SDD 称 为 L 属 性 定义 (L-attributed definition ) 。 这 类 SDD 的 
思想 是 在 一 个 产生 式 体 所 关联 的 各 个 属性 之 间 ， 依 赖 图 的 边 总 是 从 左 到 
右 ， 而 不 能 从 右 到 左 〈 因 此 称 为 工 属性 的 ) 。 更 准确 地 讲 ， 每 个 属性 必 


须要 么 是 


。 一 个 综合 属性 ， 要 么 是 

。 一 个 继承 属性 ， 但 是 它 的 规则 具有 如 下 限制 。 假 设 存在 一 个 产生 式 
A XiX..….X,， 并 且 有 一 个 通过 这 个 产生 式 所 关联 的 规则 计算 得 到 
的 继承 属性 Xia。 那 么 这 个 规则 只 能 使 用 ; 


1) 和 产生 式 头 A 关 联 的 继承 属性 。 

2) 位 于 Xi 左边 的 文法 符号 实例 XI、X,、.…、Xi1 相 关 的 继承 属性 或 
者 综合 属性 。 

3) 和 这 个 Xi 的 实例 本 和 映 相关 的 继承 属性 或 综合 属性 ， 但 是 在 由 这 
个 Xi 的 全 部 属性 组 成 的 依赖 图 中 不 存在 环 。 


图 5-4 中 的 SDD 是 L 属 性 的 。 要 知道 为 什么 ， 考 虑 对 应 于 继承 属 
性 的 语义 规则 。 为 方便 起 见 ， 我 们 在 这 里 再 重复 一 下 这 些 规则 |: 


产生 式 语义 规则 
To OFT T'.inh = F.val 
T’'—>*FT Tinh = 7 nh x Fval 








其 中 的 第 一 个 规则 定义 继承 属性 T'.inh 时 只 使 用 了 F.val， 且 F 在 相应 产生 
式 体 中 出 现在 T' 的 左 部 ， 因 此 满足 L 属 性 的 要 求 。 第 二 个 规则 定义 

7T.". inh 时 使 用 了 和 产生 式 尖 相关 联 的 继承 属性 T'.inh 及 F.val， 其 中 F 在 
这 个 产生 式 体 中 出 现在 Ty 的 左边 。 


从 语法 分 析 树 的 角度 看 ， 在 每 一 种 情况 中 ， 当 这 些 规 则 被 应 用 于 某 
个 结 点 时 ， 它 使 用 的 信息 “来 自 于 上 边 或 左边 ”的 语法 树 结 点 ， 因 此 满足 








这 一 类 SDD 的 要 求 。 其 余 的 属性 是 综合 属性 ， 因 此 这 个 SDD 是 L 属 性 
的 。 


2】 任何 包含 下 列 产生 式 和 规则 的 SDD 都 不 是 工 属性 的 : 


产 半 起 语义 规则 
4 人 BC As=B.b 
Bi = f(C.c, A.s) 





第 一 个 规则 A.s=B.b 在 S 属 性 SDD 或 L 属 性 SDD 中 都 是 一 个 合法 的 规则 。 
0 (也 就 是 产生 式 体 中 的 一 个 符号 ) 的 属性 定义 了 综合 
属性 A.s。 


第 二 个 规则 定义 了 一 个 继承 属性 B.i， 因 此 整个 SDD 不 可 能 是 S 属 性 
的 。 不 仅 如 此 ， 虽 然 这 个 规则 是 合法 的 ， 这 个 SDD 也 不 可 能 是 L 属 性 
的 ， 因 为 属性 C.c 用 来 定义 B.i， 并 且 C 在 产生 式 体 中 位 于 B 的 右边 。 虽 然 
在 L 属 性 的 SDD 中 可 以 使 用 语法 分 析 树 中 的 兄弟 结 反 的 属性 ， 但 这 些 结 
点 必须 位 于 被 定义 属性 的 符号 的 左边 。 











5.2.5 ”具有 受 控 副 作用 的 语义 规则 


在 实践 中 ， 翻 译 过 程 会 出 现 一 些 副作用 :一 个 桌 上 计算 器 可 能 打印 
出 一 个 结果 ， 一 个 代码 生成 器 可 能 把 一 个 标识 符 的 类 型 加 入 到 符号 表 
中 。 对 于 SDD， 我 们 在 属性 文法 和 翻译 方案 之 间 找 到 了 一 个 平衡 点 。 属 
性 文法 没有 副作用 ， 并 支持 任何 与 依赖 图 一 致 的 求 值 顺序 。 翻 译 方案 要 
求 按 从 左 到 右 的 顺序 求 值 ， 并 人 允许 语义 动作 包含 任何 程序 片段 。 翻 译 广 
案 将 在 5.4 节 中 讨论 ， 


我 们 将 按照 下 面 的 方法 之 一 来 控制 SDD 中 的 副作用 : 


。 文 持 那 些 不 会 对 属性 求 值 产 生 约 束 的 附 币 副作用 。 换 人 句 话说 ， 如 果 
按照 依赖 图 的 任何 拓扑 顺序 进行 属性 求 值 时 都 可 以 产生 “正确 的 ? 翻 
译 结 果 ， 我 们 就 允许 副作用 存在 。 这 里 的 “正确 ”要 视 具 体 应 用 而 


大 


和 让 。 











。 对 允许 的 求 值 顺序 添加 约束 ， 使 得 以 任何 允许 的 顺序 求 值 都 会 产 
相同 的 翻译 结果 。 这 些 约 束 可 以 被 看 作 隐 含 加 入 到 依赖 图 中 的 边 。 


作为 附带 副作用 的 一 个 例子 ， 让 我 们 修改 例 5.1 的 昌 上 计算 器 ， 使 
它 打 印 出 计算 结果 。 我 们 不 使 用 规则 L.val = E.val， 这 个 规则 将 结果 保 
存 到 综合 属性 L.val 中 。 我 们 考虑 : 


产生 式 语义 规则 
] ) 了 一 5n print( E. val) 


像 print 〈E.val) 这 样 的 语义 规则 的 目的 就 是 执行 它们 的 副作用 。 它 们 将 
会 被 看 作 与 相应 产生 式 头 相关 的 哑 毕 合 属性 的 定义 。 这 个 经 过 修改 的 
SDD 在 任何 拓扑 顺序 下 都 能 产生 相同 的 值 ， 因 为 这 个 打印 语句 在 结果 被 
计算 到 E.val 中 之 后 才 会 被 执行 。 


图 5-8 中 的 SDD 处 理 了 简单 的 声明 D。 访 声明 中 包含 一 个 基本 
类 型 T， 后 跟 一 个 标识 符 列表 L。T 的 类 型 可 以 是 int 或 float。 对 于 列表 中 
的 每 个 标识 符 ， 这 个 类 型 被 录入 到 标识 符 的 符号 表 条 目 中 。 我 们 假设 录 
入 一 个 标识 符 的 类 型 不 会 影响 其 他 标识 符 对 应 的 符号 表 条 目 。 这 样 ， 这 
些 条 目 可 以 按照 任何 顺序 进行 更 新 。 这 个 SDD 不 会 检查 一 个 标识 符 是 否 
被 声明 了 多 次 ， 我 们 也 可 以 修改 这 个 SDD， 使 它 能 够 对 标识 符 声 明 次 数 
进行 检查 。 


| 


L.inh = T.type 
T'.type = integer 














T'.type = float 

Li.inh = L.inh 
addType(id.entry, L.inh) 
addTypel(id.entry, L.inh) 





图 5-8 简单 类 型 声明 的 语法 制导 定义 


一 个 类 型 T， 后 跟 一 个 标识 符 的 列表 。T 有 一 个 属性 T.type， 它 是 声明 D 
中 的 类 型 。 非 终结 符号 LL 也 有 一 个 属性 ， 我 们 称 它 为 inhh， 以 强调 它 是 一 
个 继承 属性 。L.inh 的 作用 是 将 声明 的 类 型 沿 着 标识 符 列表 向 下 传递 ， 使 
得 它 可 以 被 加 入 到 相应 的 符号 表 条 目 中 。 


产生 式 2 和 产生 式 3 都 计算 综合 属性 T.type， 为 它 赋予 正确 的 值 : 
integer 或 float。 这 个 类 型 值 在 产生 式 1 的 规则 中 被 传递 给 属性 L.inh。 产 
生 式 4 将 L.inh 沿 着 语法 分 析 树 问 下 传递 。 也 就 是 说 ， 在 一 个 分 析 树 结 点 
上 上， 值 Li.inh 是 通过 找 贝 该 结 点 的 父 结 点 的 L.inh 值 而 得 到 的 ， 这 个 父 结 
点 对 应 于 此 产生 式 的 头 。 


产生 式 4 和 产生 式 5 还 包含 另 一 个 规则 。 访 规则 用 如 下 两 个 参数 调用 
函数 addType: 

















。 id.entry: 在 词法 分 析 过 程 中 得 到 的 一 个 指 癌 某 个 符号 表 对 象 的 值 。 
。 Linh: 被 赋 给 列表 中 各 个 标识 符 的 类 型 值 。 


我 们 假设 函数 addType 正 确 地 将 id 所 代表 的 标识 符 的 类 型 设置 为 类 
型 值 L.inh。 


输入 串 float id ，id，ids 的 依赖 图 如 图 5-9 所 示 。 数 字 1 一 10 表 示 了 
这 个 依赖 图 中 的 结 点 。 结 点 1、2 和 3 表示 了 和 各 个 标号 为 id 的 叶子 结 点 
相关 的 属性 entry。 结 点 6、8 和 10 是 表示 函数 addType 的 应 用 于 一 个 类 型 
和 这 些 entry 值 之 一 的 哑 属 性 。 


-i type inh 5 者， 6 entry 


float 2 id 3 entry 


inh 7 L 8 entry 


a 1d。 2 entry 


inh 9 L 10 entry 
~ 


| 


idl 1 entry 


图 5-9 ”声明 float idj，id?，id3 的 依赖 图 





结 点 4 表示 属性 Ttype， 它 实际 上 是 属性 求 值 过程 开 始 的 地 方 。 然 
后 ， 这 个 类 型 被 传递 到 结 点 5、7 和 9。 这 些 结 点 表示 和 非 终结 符 号 工 的 各 
次 出 现 相 关 的 L.inh。 


5.2.6 ”5.2 节 的 练习 


练习 5.2.1: 图 5-7 中 的 依赖 图 的 全 部 拓扑 排序 有 哪些 ? 


练习 5.2.2: 对 于 图 5-8 中 的 SDD， 给 出 下 列表 达 式 对 应 的 注释 语法 
分 析 树 : 


1) int a, b, c 





2) float w, x, y, Zz 


练习 5.2.3: 假设 我 们 有 一 个 产生 式 A ,BCD。A、B、C、D 这 四 个 
非 终结 符 号 都 有 两 个 属性 : s 是 一 个 综合 属性 ， 而 i 是 一 个 继承 属性 。 对 
于 下 面 的 每 组 规则 ， 指 出 〈i) 这些 规 则 是 否 满 足 S 属 性 定义 的 要 求 。 
(二 ) 这 些 规则 是 否 满足 L 属 性 定义 的 要 求 。 证) 是 否 存在 和 这 些 规则 

















一 致 的 求 值 过 程 ? 
1) A.s= 了 B.i+C.s 
2) A.s=B.i+C.s 和 D.i=A.i+B.s 
3) A.s=B.s+D.s 
! 4) A.s=D.i, Bi=A.s+C.s, C.i=B.s 和 D.i=B.i+C.i 


! 练习 5.2.4: 这 个 文法 生成 了 含 “ 小 数 点 ”的 二 进 制 数 : 


时 
LLBI|B 
B—0|11 


设计 一 个 工 属性 的 SDD 来 计算 S.val， 即 输入 串 的 十 进 制 数值 。 比 
如 ， 串 101.11 应 该 被 翻译 为 十 进 制 数 5.635。 提 示 : 使 用 一 个 继承 属性 
L.side 来 指明 一 个 二 进 制 位 在 小 数 点 的 哪 一 边 。 


! ! 练习 5.2.5: 为 练习 5.2.4 中 描述 的 文法 和 翻译 设计 一 个 S 属 性 的 
SDD。 


! ! 练习 5.2.6: 使 用 一 个 自 顶 同 下 语法 分 析 文 法 上 的 L 属 性 SDD 来 
实现 算法 3.23。 这 个 算法 把 一 个 正则 表达 式 转换 为 一 个 不 确定 的 有 穷 自 
动机 。 假 设 有 一 个 表示 任意 字符 的 词法 单元 char， 并 且 char.lexval 是 它 
所 表示 的 字符 。 你 可 以 假设 存在 一 个 函数 new()， 该 函数 返回 一 个 新 的 
状态 ， 也 就 是 一 个 之 前 疯 未 被 这 个 函数 返回 的 状态 。 使 用 任何 方便 的 表 
示 方 式 来 描述 这 个 NFA 的 翻译 。 








5.3 ”语法 制导 翻译 的 应 用 


本 章 中 的 语法 制导 的 翻译 技术 将 在 第 6 章 中 用 于 类 型 检查 和 中 间 代 
码 生 成 。 这 里 ， 我 们 将 给 出 一 些 例 子 来 解释 有 代表 性 的 SDD。 


本 节 中 的 主要 应 用 是 抽象 语法 树 的 构造 。 因 为 有 些 编译 器 使 用 抽象 
语法 树 作 为 一 种 中 间 表 示 形 式 ， 所 以 一 种 常见 的 SDD 形 式 将 它 的 输入 串 
转换 为 一 棵 树 。 为 了 完成 到 中 间 代 码 的 翻译 ， 编 译 器 接 下 来 可 能 使 用 一 
组 规则 来 编译 这 棵 语法 树 。 这 些 规则 实际 上 是 一 个 建立 于 语法 树 之 上 的 
SDD， 而 通常 的 SDD 建 立 于 语法 分 析 树 之 上 。 (第 6 章 将 讨论 应 用 一 个 
SDD 来 生成 中 间 代 码 的 方法 ， 这 个 方法 不 需要 显 式 地 生成 树 。) 


我 们 考虑 两 个 为 表达 式 构 造 语法 树 的 SDD。 第 一 个 是 一 个 S 属 性 定 
义 ， 它 适合 在 自 底 向 上 语法 分 析 过 程 中 使 用 。 第 二 个 是 一 个 工 属性 定 
义 ， 它 适合 在 自 顶 向 下 的 语法 分 析 过 程 中 使 用 。 


本 节 的 最 后 一 个 例子 是 一 个 处 理 基 本 类 型 和 数组 类 型 的 L 属 性 定 
A 





5.3.1 抽象 语法 树 的 构造 


2.8.2 节 讨论 过 ， 一 标语 法 树 中 的 每 个 结 氮 代 表 一 个 程序 构造 ， 这 个 
结 点 的 子 结 点 代表 这 个 构造 的 有 意义 的 组 成 部 分 。 表 示 表 达 式 Ei+E, 的 
语法 树 结 扣 的 标号 为 +， 且 两 个 子 结 反 分 别 代 表 子 表达 式 E1 和 E,。 








我 们 将 使 用 具有 适当 数量 的 字段 的 对 象 来 实现 一 棵 语法 树 的 各 个 结 
点 。 每 个 对 象 将 有 一 个 op 字段 ， 也 就 是 这 个 络 点 的 标号 。 这 些 对 象 将 具 
有 如 下 所 述 的 其 他 字段 : 


。 如 果 结 点 是 一 个 叶子 ， 那 么 对 象 将 有 一 个 附加 的 域 来 存放 这 个 叶子 
结 点 的 词法 值 。 构 造 函 数 Leaf (op，val) 创建 一 个 叶子 对 象 。 我 们 
也 可 以 把 结 点 看 作 记 录 ， 那 么 Leaf 就 会 返回 一 个 指向 与 叶子 结 点 对 
应 的 新 记录 的 指针 。 


。 如 果 结 点 是 内 部 结 点 ， 那 么 它 的 附加 字段 的 个 数 和 该 结 点 在 语法 树 
中 的 子 结 点 个 数 相同 。 构 造 函 数 Node 币 有 两 个 或 多 个 参数 : 
Node (op，C1，C2，...，CGk) ， 该 函数 创建 一 个 对 象 ， 第 一 个 字段 
的 值 为 op， 其 余 k 个 字段 的 值 为 cj，...，cy。 


图 5-10 中 的 S 属 性 定义 为 一 个 简 蛙 的 表达 式 文法 构造 出 语法 
对 。 这 个 文法 只 包含 二 目 运 算 符 + 和 -。 通 常 ， 这 两 个 运算 符 具 有 相同 的 
优先 级 ， 并 且 都 是 堪 结合 的 。 所 有 的 非 终 结 符号 都 有 一 个 综合 属性 
node， 该 属性 表示 相应 的 抽象 语法 树 结 点 。 


每 当 使 用 第 一 个 产生 式 E Ei1+T 时 ， 它 的 语义 规则 就 创建 出 一 个 结 
点 。 创 建 时 使 用 “+” 作 为 op， 使 用 E1.node 和 T.node 作 为 代表 子 表达 式 的 
两 个 子 结 皮 。 第 二 个 产生 式 也 有 类 似 的 规则 。 


RT 
E.node = new Node(' 十, Ei.node, T.node) 
五 .node = new Node(’'—', Ei.node, T'.node) 
E.node = T.node 
T'.node = E.node 
T'.node = new Leaf(id,id.entry) 


T.node = new Leaf (num, num.val) 





图 5-10 为 简单 表达 式 构造 语法 树 


产生 式 3， 即 E-,;T， 没 有 创建 任何 结 点 ， 因 为 E.node 和 T.node 是 一 
样 的 。 类 似 地 ， 产 生 式 4， 即 T-，(E) ， 也 没有 创建 任何 结 点 。T.node 
的 值 和 E.node 的 值 相同 ， 因 为 括号 仅仅 用 于 分 组 。 它 们 会 影响 语法 分 析 
树 和 抽象 语法 树 的 结构 ， 但 是 一 旦 分 组 完成 ， 束 不 需要 在 抽象 语法 树 中 
保留 这 些 括 号 了 。 


最 后 两 个 T- 产 生 式 的 右 部 是 一 个 终结 符号 。 我 们 使 用 构造 函数 Leaf 
来 创建 合适 的 结 点 。 这 些 结 点 就 成 为 Tnode 的 值 。 


图 5-11 显 示 了 为 输入 a-4+c 构 造 一 柠 抽 象 语法 树 的 过 程 。 这 标 抽 象 语 
法 树 的 结 点 被 显示 为 记录 。 这 些 记录 的 第 一 个 字段 是 op。 现 在 ， 抽 象 语 
法 树 的 边 用 实 线 表示 。 基 础 的 语法 分 析 树 使 用 点 虚线 表示 边 。 实 际 上 不 
需要 生成 语法 分 析 树 。 第 三 种 线 是 虚线 ， 它 表示 E.node 和 T.node 的 值 。 








每 条 线 都 指 问 适当 的 抽象 语法 树 结 点 。 


| BE.node 





to entry for a 


图 5-11 a-4+tc 的 抽象 语法 树 


在 最 底 端 ， 我 们 可 以 看 到 由 Leaf 构 造 得 到 的 分 别 表 示 a、4 和 c 的 叶 
子 结 点 。 我 们 假设 词法 值 id.entry 指 癌 符 扎 表 ， 并 且 词 法 值 num.val 是 一 
个 常量 值 。 根 据 规则 5 和 6， 这 些 叶 子 结 点 ， 或 指 同 它们 的 指针 ， 变 成 了 
图 中 的 三 个 标号 为 的 语法 分 析 树 结 点 上 的 T.node 的 值 。 请 注意 ， 根 据 
规则 3， 指 同 a 对 应 的 叶子 结 点 的 指针 同时 也 是 语法 分 析 树 中 最 左边 的 E 
的 E.node 值 。 


我 们 根据 规则 2 创建 了 一 个 结 点 ， 该 结 点 的 op 字段 等 于 减 号 ， 它 的 
指针 指向 前 两 个 叶子 结 点 。 然 后 ， 规 则 1 将 对 应 于 -的 结 点 和 第 三 个 叶子 
组 合 起 来 ， 得 到 这 个 抽象 语法 树 的 根 结 点 。 


如 果 这 些 规 则 是 在 对 语法 分 析 树 的 后 序 遇 历 过 程 中 求 值 的 ， 或 者 是 
在 目 底 癌 上 分 析 过 程 中 和 归 约 动作 一 起 进行 求 值 的 ， 那 么 当 疼 5-12 中 旺 
示 的 一 系列 步 又 结束 时 ，ps 指 癌 构 造 得 到 的 抽象 语法 树 的 根 结 点 。 











p1 = new Leaf(id, entry-a); 
p2 = new Leaf (num, 4); 
p3 = new Node(’—', pi1, p2); 


p4 = new Leaf(id, entry-c); 
ps = new Nodel('+’, p3, p4); 





图 5-12 ar-4+c 的 抽象 语法 树 的 构造 步骤 


如 琳 使 用 一 个 为 自 项 回 下 语法 分 析 而 设计 的 文法 ， 那 么 得 到 的 抽象 
语法 树 仍 然 相 同 ， 其 构造 的 步骤 也 相同 ， 虽 然 语法 分 析 树 的 结构 和 抽象 
语法 树 的 结构 有 极 大 的 不 同 。 


图 5-13 中 的 工 属性 定义 完成 的 翻译 工作 和 图 5-10 中 的 S 属 性 定义 


完成 工作 的 相同 。 文 法 符号 E、T、id 和 mnum 的 属性 和 例 5-11 中 讨论 的 
目 同 。 


产生 式 语义 规则 
ETE bE.node = E'.syn 
E'.inh = T.node 
E+TE | Ei.inh=new Node(+',E'.inh,T.node) 
E'.syn = 五 .sm 


E'—>—TE | Ei.inh=new Node(—',bE'.inh,T.node) 
E'.syn = Ei .syn 

五 一 上 E'.syn = E'.inh 

To (EE) T.node = E.node 

了 一 id T.node = new Leaf (id,id.entry) 


了 一 num T.node = new Leaf (num, num.val) 





图 5-13 ”在 自 顶 向 下 语法 分 析 过 程 中 构造 抽象 语法 树 


这 个 例子 中 构造 抽象 语法 树 的 规则 和 例 5.3 中 更 上 计算 喜 的 规则 类 
似 。 在 果 上 计算 器 的 例子 中 ， 项 x*y 中 的 x 和 *y 位 于 语法 分 析 树 的 不 同 部 
分 ， 因 此 在 计算 x*y 时 x 是 作为 继承 属性 传递 的 。 这 里 的 思想 是 在 构造 
x+y 的 抽象 语法 树 时 将 x 作 为 一 个 继承 属性 传递 ， 因 为 x 和 +y 出 现在 不 同 





的 子 树 中 。 非 终结 符号 E' 对 应 于 例 5.3 中 的 非 终结 符号 T'。 请 比较 一 下 图 
5-14 中 a-4+c 的 依赖 图 和 图 5-7 中 3*4 的 依赖 图 的 相似 之 处 。 


非 终结 符号 E' 有 一 个 继承 属性 inh 和 一 个 综合 属性 syn。 属 性 E'.inh 表 
示 至 今 为 止 构造 得 到 的 部 分 抽象 语法 树 。 明 确 地 说 ， 它 表示 的 是 位 于 E' 
的 子 树 左边 的 输入 串 前 级 所 对 应 的 抽象 语法 树 的 根 。 在 图 5-14 中 依赖 图 
的 结 点 5 处 ，E'.inh 表 示 对 应 于 a 的 抽象 语法 树 的 根 ， 实 际 上 就 是 对 应 于 a 
的 叶子 结 点 。 在 结 点 6 处 ，E'.inh 表 示 对 应 于 输入 a-4 的 部 分 抽象 语法 树 的 
根 。 在 结 点 9 处 ，E'.inh 表 示 a-4+c 的 抽象 语法 树 。 








.EE 13node 


0 


1 
id 1 entry =" TT 4%0de i 6 B11 syn 
num 3val + 7T 8 Nde dnh 9 BN10 syn 
; ~—” 
id 7 entry < 


图 5-14 使 用 图 5-13 中 的 SDD 时 的 a-4+c 的 依赖 图 


因为 没有 更 多 的 输入 ， 所 以 在 结 点 9 处 ，E'.inh 指 同 整 个 抽象 语法 树 
的 根 。 属 性 syn 把 这 个 值 沿 着 语法 分 析 树 加 上 传递 ， 直 到 它 成 为 E.node 的 
值 。 明 确 地 讲 ， 结 点 10 上 的 属性 值 是 通过 产生 式 E'-€ 所 关联 的 规则 E 


.syn = E'.inh 来 定义 的 。 在 结 点 11 处 的 属性 值 是 通过 图 5-13 中 与 产生 式 2 
相关 的 规则 到 .sm =E". syn 来 定义 的 。 类 似 的 规则 还 定义 了 结 点 12 和 13 处 
的 值 。 


5.3.2 ”类 型 的 结构 


当 语 法 分 析 树 的 结构 和 输入 的 抽象 语法 树 的 结构 不 同时 ， 继 承 属性 
是 很 有 用 的 。 在 这 种 情况 下 ， 继 承 属性 可 以 用 来 将 信息 从 语法 分 析 树 的 
一 部 分 传递 到 为 一 部 分 。 下 一 个 例子 显示 了 这 种 结构 上 的 不 匹配 可 能 是 
由 语言 设计 引起 的 ， 而 不 是 由 语法 分 析 方法 的 约束 引起 的 。 


在 C 语 言 中 ， 类 型 int [2] [3] 可 以 读 作 :“ 由 两 个 数组 组 成 








的 数组 ， 子 数组 中 有 三 个 整数 "。 相 应 的 类 型 表达 式 array (2， 

array (3，integer) ) 可 以 使 用 图 5-15 中 的 树 来 表示 。 运 算 符 array 有 两 
个 参数 ， 一 个 是 数字 ， 另 一 个 是 类 型 。 如 果 使 用 树 来 表示 类 型 ， 那 么 这 
个 运算 符 返 回 一 个 标号 为 array 的 结 点 ， 该 结 点 具有 两 个 子 结 点 ， 分 别 表 


示 数 字 和 类 型 。 
A 


2 a 
3 nteger 
图 5-15 int [2] [3] 的 类 型 表达 式 
使 用 图 5-16 中 的 SDD， 非 终结 符号 TIT 生成 的 是 一 个 基本 类 型 或 一 个 
数组 类 型 。 非 终结 符号 B 生 成 基本 类 型 int 和 float 之 一 。 当 T 推 导出 BC 有 H 
C 推 导出 外 时 ，T 生 成 一 个 基本 类 型 。 否 则 ，C 就 生成 由 一 个 整数 序列 组 
成 的 数组 描述 分 量 ， 其 中 的 每 个 整数 用 方 括号 括 起 。 


| 


bs 
tb 
B.t = integer 


B.t = float 

C.t = array (num.val, C1.t) 
ib= 6 

Ct 三 C6 


图 5-16 T 生 成 一 个 基本 类 型 或 一 个 数组 类 型 





非 终结 符号 B 和 T 有 一 个 表示 类 型 的 综合 属性 t{。 非 终结 符号 C 有 两 
个 属性 : 一 个 继承 属性 b 和 一 个 综合 属性 t。 继 承 属性 b 将 一 个 基本 类 型 
沿 看 树 向 下 传播 ， 而 综合 属性 t 则 收集 最 终 得 到 的 结果 。 





输入 串 int [2] [3j 的 注释 语法 分 析 树 如 图 5-17 所 示 。 图 5-15 中 的 
相应 类 型 表达 式 的 构造 过 程 如 下 : 首先 类 型 integer 从 B 开 始 ， 沿 着 C 组 成 
的 链 通 过 继承 属性 b 同 下 传递 。 最 后 的 数组 类 型 是 治 着 C 组 成 的 链 、 通 过 
属性 t 不 断交 上 传递 并 综合 而 得 到 的 。 


T.t = array(2, array(3, integer)) 





B.t = integer C.b = integer 
t= 9 C.t = array(2, array(3, integer7)) 
int [ J C.b= integer 


C.t = array(3, integer) 


pe / “ = integer 


| C.t = integer 


€ 


图 5-17 数组 类 型 的 语法 制导 的 翻译 


更 详细 地 讲 ， 在 产生 式 T-,BC 对 应 的 根 结 点 上 ， 非 终结 符号 C 使 用 
继承 属性 C.b 从 B 那 里 继承 类 型 。 在 最 右边 的 C 结 点 上 的 产生 式 是 
CE， 因 此 C.t 等 于 C.b。 产 生 式 C- [num] Ci 的 语义 规则 将 运算 符 
array 作 用 到 运算 分 量 num.val 和 C1.t 上 ， 得 到 C.t 的 值 。 





5.3.3 5.3 节 的 练习 
练习 5.3.1， 下 面 是 涉及 运算 符 + 和 整数 或 浮 点 运算 分 量 的 表达 式 的 
文法 。 区 分 浮 点数 的 方法 是 看 它 有 无 小 数 点 。 
办 = 地 六 生 革 1 


7 一 num .num | num 





1) 给 出 一 个 SDD 来 确定 每 个 项 T 和 表达 式 E 的 类 型 。 


2) 扩展 (a) 中 得 到 的 SDD， 使 得 它 可 以 把 表达 式 转 换 成 为 后 级 表 
达 式 。 使 用 一 个 单 目 运算 符 intToFloat 把 一 个 整数 转换 为 相等 的 浮 点 


数 。 


! 练习 5.3.2: 给 出 一 个 SDD， 将 一 个 带 有 + 和 * 的 中 级 表达 式 翻译 成 
没有 克 余 括号 的 表达 式 。 比 如 ， 因 为 两 个 运算 符 都 是 左 结合 的 ， 并 且 * 
的 优先 级 高 于 +， 所 以 〈 (a* (b+c) ) * (d) ) 可 翻译 为 ar (b+c) 

*d。 


! 练习 5.3.3: 给 出 一 个 SDD 对 x* (3*x+x*x) 这 样 的 表达 式 求 微 
分 。 表 达 式 中 涉及 运算 符 + 和 *、 变 量 x 和 常量 。 假 设 不 进行 任何 简化 ， 
也 就 是 说 ， 比 如 3*x 将 被 翻译 为 3*1+0*X。 


5.4 语法 制导 的 翻译 方案 


语法 制导 的 翻译 方案 是 语法 制导 定义 的 一 种 补充 。5.3 节 中 的 所 有 
语法 制导 定义 的 应 用 都 可 以 使 用 语法 制导 的 翻译 方案 来 实现 。 


根据 2.3.5 闻 的 介绍 可 知 ， 语 法 制导 的 翻译 方案 (syntax-directed 
translation scheme, SDT) 是 在 其 产生 式 体 中 磐 入 了 程序 片段 的 一 个 上 下 
文 无 关 文 法 。 这 些 程序 片段 称 为 语义 动作 ， 它 们 可 以 出 现在 产生 式 体 中 
的 任何 地 方 。 按 照 惯 例 ， 我 们 在 这 些 动作 两 边 加 上 花 括号 。 如 果 花 括号 
要 作为 文法 符号 出 现 ， 则 要 给 它们 加 上 引号 。 


任何 SDT 都 可 以 通过 下 面 的 方法 实现 : 首先 建立 一 棵 语法 分 析 树 ， 
然后 按照 从 左 到 右 的 深度 优先 顺序 来 执行 这 些 动作 ， 也 就 是 说 在 一 个 前 
序 壳 历 过 程 中 执行 。5.4.3 贡 将 给 出 一 个 这 样 的 例子 。 


通常 情况 下 ，SDT 和 是 在 语法 分 析 过 程 中 实现 的 ， 不 会 真 的 构造 一 柠 
语法 分 析 树 。 在 本 市 中 ， 我 们 主要 关注 如 何 使 用 SDT 来 实现 两 类 重要 的 
SDD: 


1) 基本 文法 可 以 用 LR 技术 分 析 ， 且 SDD 是 S 属 性 的 。 
2) 基本 文法 可 以 用 LL 技术 分 析 ， 且 SDD 是 L 属 性 的 。 


我 们 将 会 看 到 ， 在 这 两 种 情况 下 ， 一 个 SDD 中 的 语义 规则 是 如 何 被 
转换 成 为 一 个 带 有 语义 动作 的 SDT 的 。 这 些 动作 将 在 适当 的 时 候 执 行 。 
在 语法 分 析 过 程 中 ， 产 生 式 体 中 的 一 个 动作 在 它 左 边 的 所 有 文法 符号 都 
被 匹配 之 后 立刻 执行 。 


可 以 在 语法 分 析 过 程 中 实现 的 SDT 可 以 按照 如 下 的 方式 识别 : 将 每 
个 内 知 的 语义 动作 替换 为 一 个 独 有 的 标记 非 终结 符号 (marker 
nonterminal) 。 每 个 标记 非 终结 符号 M 只 有 一 个 产生 式 M -、，E 。 如 果 和 市 
有 标记 非 终 结 符号 的 文法 可 以 使 用 某 个 方法 进行 语法 分 析 ， 那 么 这 个 
SDT 就 可 以 在 语法 分 析 过 程 中 实现 。 














5.4.1 后 级 翻译 方案 





至 今 为 止 ， 最 简单 的 实现 SDD 的 情况 是 文法 可 以 用 自 底 同 上 方法 来 
分 析 且 该 SDD 是 S 属 性 定义 。 在 这 种 情况 下 ， 我 们 可 以 构造 出 一 个 
SDT， 其 中 的 每 个 动作 都 放 在 产生 式 的 最 后 ， 并 且 在 按照 这 个 产生 式 将 
产生 式 体 归 约 为 产生 式 头 的 时 候 执 行 这 个 动作 。 所 有 动作 都 在 产生 式 最 
右 端 的 SDT 称 为 后 级 翻译 方案 。 


图 5-18 中 的 后 级 SDT 实 现 了 图 5-1 中 的 桌 上 计算 器 的 SDD。 其 
只 有 一 处 改动 : 第 一 个 产生 式 的 动作 是 打印 出 结果 值 。 其 余 的 语义 动 
作 和 原来 的 语义 规则 对 应 的 动作 完全 一 样 。 因 为 此 SDD 的 基本 文法 是 
LR 的 ， 并 且 这 个 SDD 是 S 属 性 的 ， 所 以 这 些 动作 可 以 和 语法 分 析 器 的 归 
约 步 又 一 起 正确 地 执行 。 











{ print(E.val); } 

{ E.val= Ei.val+ T.val; } 
{ E.val= 7.val; } 

{ T.val = Ti.val x F.val; } 
{ T.val = F.val; } 

{ F.val = bE.val; } 

{ PF.val = digit.lezval; } 


L 一 
Eb ”一 
bE 一 
7 一 
TT 一 
FF 一 
FP 一 





图 5-18 ”实现 桌 上 计算 器 的 后 级 SDT 
5.4.2 ”后 弘 SDT 的 语法 分 析 栈 实现 


后 级 SDT 可 以 在 LR 语法 分 析 的 过 程 中 实现 ， 当 归 约 发 生 时 执行 相应 
的 语义 动作 。 各 个 文法 符号 的 属性 值 可 以 放 到 栈 中 的 茶 个 位 置 ， 使 得 执 
行 归 约 的 时 候 可 以 找到 它们 。 最 好 的 方法 是 将 属性 和 文法 符 写 (或 者 表 
示 文 法 符号 的 LR 状态 ) 一 起 放 在 栈 中 的 记录 里 。 


在 图 5-19 中 ， 语 法 分 析 栈 包含 的 记录 中 有 一 个 字段 ， 该 字段 用 于 存 


放 文 法 符号 (或 语法 分 析 器 的 状态 ) ， 并 且 在 这 个 字段 之 下 有 一 个 字段 
用 于 存放 属性 。 三 个 文法 符号 XY Z 位 于 栈 的 顶部 ， 可 能 它们 即将 按照 
一 个 产生 式 ， 比 如 A XY ZZ， 进行 归 约 。 这 里 ， 我 们 用 X.x 表 示 X 的 一 
个 属性 ， 等 等 。 一 般 来 说 ， 我 们 可 以 支持 多 个 属性 ， 方 法 是 使 记录 变 得 
足够 大 ， 或 者 在 栈 中 的 记录 里 放 上 指针 。 对 于 小 型 的 属性 ， 将 记录 变 得 
足够 大 可 能 是 比较 简单 的 方法 ， 即 使 有 些 时 候 有 些 字 段 不 会 被 用 到 也 没 
有 太 大 关系 。 然 而 ， 如 果 一 个 或 多 个 属性 的 大 小 没有 限制 ， 比 如 它们 是 
字符 串 ， 那 么 最 好 把 一 个 指针 放 到 栈 记 录 的 属性 值 中 ， 并 把 实际 的 值 存 
放 在 栈 之 外 的 某 个 比较 大 的 共享 存储 区 域 中 。 


状态 /文法 符号 
综合 属性 





栈 顶 


图 5-19 ” 带 有 用 于 存放 综合 属性 的 字段 的 语法 分 析 栈 


如 果 所 有 属性 都 是 综合 属性 ， 并 且 所 有 动作 都 位 于 产生 式 的 末端 ， 
那么 我 们 可 以 在 把 产生 式 体 归 约 成 产生 式 头 的 时 候 计算 各 个 属性 的 值 。 
如 果 我 们 使 用 A_“XYZ 这 样 的 产生 式 进行 归 约 ， 那 么 此 时 X、Y 和 Z 的 所 
有 属性 值 都 是 可 用 的 ， 并 且 都 位 于 已 知 的 位 置 上 ， 如 图 5-19 所 示 。 在 这 
个 动 作 之 后 ，A 和 它 的 属性 都 位 了 术 的 顶端， 即 现在 存放 的 记录 的 位 


让 我 们 重 写 例 5.14 中 桌 上 计算 器 SDT 中 的 动作 ， 使 它们 显 式 地 
哥 作 说 法 分 析 栈 。 这 样 的 栈 操作 通常 是 由 语法 分 析 器 自动 完成 的 。 


假设 语法 分 析 栈 存放 在 一 个 被 称 为 stack 的 记录 数组 中 ， 而 top 是 指 
回 栈 顶 的 游标 。 这 样 ，stack Ltop」 指 癌 这 个 栈 的 栈 顶 记录 ，stack [top- 
1] 指向 栈 顶 记录 的 下 一 个 记录 ， 依 此 类 推 。 我 们 还 假设 每 个 记录 有 一 
个 被 称 为 val 的 字段 ， 该 字段 存放 了 这 个 记录 所 代表 的 文法 符号 的 属性 
值 。 这 样 ， 我 们 可 以 使 用 stack [top-2] .val 来 指向 出 现在 栈 中 第 三 个 位 
置 上 的 属性 E.val。 完 整 的 SDT 显 示 在 图 5-20 中 。 





产生 式 语义 动作 


L— En { print(stack [top — 1].va); 
top = top— 1;} 

Ebi+T { stack[top ~— 2].val = stack [top — 2].val + stack [topl].val; 
top = top — 2; } 

帮 和 下 

TOT*PF { stack[top — 2].val = stack [top — 2].val x stack [top].val; 
top = top — 2; } 

To OF 

F~ (EE) { stack[top.— 2|.val = stack [top — 1).val; 
top = top — 2; } 

F 一 digit 








图 5-20 在 一 个 自 底 向 上 语法 分 析 栈 中 实现 桌 上 计算 器 


比如 ， 在 第 二 个 产生 式 E~Ei+T 中 ， 我 们 在 栈 顶 之 下 两 个 位 置 上 找 
到 Ei 的 值 ， 在 栈 顶 找到 T 的 值 。 求 和 的 结果 放 在 归 约 之 后 产生 式 汰 E 将 
出 现 的 位 置 上 ， 也 惑 是 当前 栈 顶 之 下 两 个 位 置 处 。 这 是 因为 在 归 约 之 
后 ， 最 上 面 的 三 个 符号 将 被 昔 换 为 一 个 符号 。 在 计算 完 E.val 之 后 ， 我 们 
将 两 个 符号 弹出 栈 ， 现 在 我 们 放置 E.val 的 记录 将 变 成 栈 顶 。 


在 第 三 个 产生 式 E-,T 中 不 需要 任何 语义 动作 ， 因 为 栈 的 长 度 没有 
改变 ， 栈 顶 的 T.val 值 直接 变 成 了 E.val 的 值 。 产 生 式 TF 和 Fdigit 的 情 
况 与 此 类 似 。 产 生 式 FE~ 〈E) 稍 有 不 同 。 虽 然 值 没有 改变 ， 但 是 在 归 约 
人 因此 这 个 值 必 须 移动 到 归 约 之 后 的 位 置 








请 注意 ， 我 们 省 略 了 针对 栈 中 记录 的 第 一 个 字段 的 操作 步骤 。 这 个 
字段 保存 了 LR 状 态 或 文法 符号 。 如 果 我 们 执行 LR 语 法 分 析 过 程 ， 语 法 
分 析 表 将 给 出 每 次 归 约 之 后 的 新 状态 ， 见 算法 4.44。 因 此 ， 我 们 可 以 直 
接 把 这 个 新 状态 放 到 新 的 栈 顶 记录 中 。 


5.4.3 ”产生 式 内 部 带 有 语义 动作 的 SDT 


动作 可 以 放置 在 产生 式 体 中 的 任何 位 置 上 。 妆 一 个 动作 左边 的 所 有 
和 从 写 都 被 处 理 过 后 ， 该 动作 立刻 执行 。 因 此 ， 如 果 我 们 有 一 个 产生 式 





BX{a}YY， 那 么 当 我 们 识别 到 X (如 果 X 是 终结 符 写 ) 或 者 所 有 从 X 推 
0 0 6s 
地 讲 ， 


。 如 采 语 法 分 析 过 程 是 目 底 同上 的 ， 那 么 我 们 在 X 的 此 次 出 现 位 于 语 
法 分 析 栈 的 栈 顶 时 ， 我 们 立刻 执行 动作 a。 

如 果 语 法 分 析 过 程 是 自 顶 向 下 的 ， 那 么 我 们 在 试图 展开 Y 的 本 次 出 
现 《如果 Y 是 非 终结 符号 ) 或 者 在 输入 中 检测 Y (如 果 Y 是 终结 符 
号 ) 之 前 执行 语义 动作 a。 


可 以 在 语法 分 析 过 程 中 实现 的 SDT 包 括 后 级 SDT 和 即将 在 5.5 节 中 讨 
论 的 一 类 SDT， 这 类 SDT 实 现 了 L 属 性 定义 。 不 是 所 有 的 SDT 都 可 以 在 
语法 分 析 过 程 中 实现 ， 下 面 我 们 就 给 出 一 个 例子 。 


作为 一 个 有 问题 的 SDT 的 极端 例子 ， 假 设 我 们 将 桌 上 计算 器 的 
列子 改 成 一 个 可 以 打印 输入 表达 式 的 前 缀 表示 方式 的 SDT， 而 不 再 对 表 
达 式 进行 求 值 。 新 SDT 的 产生 式 和 动作 显示 在 图 5-21 中 。 











En 
{ print(+); 五 十 工 
到 


{ print(s); } Ti *F 

F 

(E) 

digit { print(digit.lezval); } 


一 
-> 
一 
一 》 
一 全 
一 
一 





图 5-21 在 语法 分 析 过 程 中 完成 中 级 到 前 级 翻译 的 有 问题 的 SDT 


遗憾 的 是 ， 不 可 能 在 上 自 顶 辐 下 或 自 确 铝 上 的 语法 分 析 过 程 中 实现 这 
个 SDT， 因 为 语法 分 析 程序 必须 在 它 还 不 知道 出 现在 输入 中 的 运算 符号 
古 * 还 是 + 的 时 候 ， 就 执行 打印 这 些 符号 的 操作 。 


在 产生 式 2 和 4 中 分 别 使 用 标记 非 终 结 符号 My 和 M4 来 蔡 代 相应 的 动 
作 ， 一 个 移入 - 归 约 语法 分 析 器 〈 见 4.5.3 节 ) 在 处 理 输入 digit( 比 如 3) 











的 时 候 会 因为 不 能 确定 是 使 用 M2 ~” E 归 约 ， 使 用 M4-~ E 归 约 ， 还 是 移 
入 输入 数字 而 产生 一 个 冲突 。 

任何 SDT 都 可 以 按照 下 列 方法 实现 : 

1) 忽略 语义 动作 ， 对 输入 进行 语法 分 析 ， 并 产生 一 棵 语法 分 析 
树 。 

2) 然后 检查 每 个 内 部 结 点 N， 假 设 它 的 产生 式 是 A ,a。 将 a 中 的 各 


个 动作 当 作 N 的 附加 子 结 点 加 入 ， 使 得 N 的 子 结 把 从 左 到 右 和 a 中 的 符号 
及 动作 完全 一 致 。 


3) 对 这 棵 语法 树 进行 前 序 遍 历 ( 见 2.3.4 节 ) ， 并 且 当 访问 到 一 个 
以 某 个 动作 为 标号 的 结 点 时 立刻 执行 这 个 动作 。 

比如 ， 图 5-22 显 示 了 带 有 插入 动作 的 表达 式 3*5+4 的 语法 分 析 树 。 
如 果 我 们 按照 前 序 次 序 来 访问 结 点 ， 我 们 就 得 到 了 这 个 表达 式 的 前 绥 形 
式 : +#354。 














放 
| 
a n 
ge | ee 
{ print(‘+’); } 十 T 
] | 
Wy 坟 
pl 
{print(*);} T * PF digit { print(4); } 
| | 
RE digit { print(5); } 


digit { print(3); } 


图 5-22 ”上 肉 入 了 动作 的 语法 分 析 树 


5.4.4 从 SDT 中 消除 左 递归 


因为 带 有 左 递归 的 文法 不 能 按照 自 顶 向 下 的 方式 确定 地 进行 语法 分 
析 ， 所 以 在 4.3.3 节 中 介绍 了 左 递归 的 消除 。 当 文法 是 SDT 的 一 部 分 时 ， 
我 们 还 需要 考虑 如 何 处 理 其 中 的 动作 。 


首先 考虑 简单 的 情况 ， 即 我 们 只 需要 关心 一 个 SDT 中 的 动作 的 执行 
顺序 的 情况 。 比 如 ， 如 果 每 个 动作 只 打印 一 个 字符 串 ， 我 们 束 只 关心 这 
些 字符 串 的 打印 顺序 。 在 这 种 情况 下 ， 可 以 应 用 下 面 的 原则 完成 这 个 转 
化 : 





。 当 转 换文 法 的 时 候 ， 将 动作 当成 终结 符号 处 理 。 

这 个 原则 基于 下 面 的 思想 : 文法 转换 保持 了 由 文法 生成 的 符号 串 中 
终结 符号 的 顺序 。 因 此 ， 这 些 动作 在 任何 从 左 到 右 的 语法 分 析 过 程 中 都 
按照 相同 的 顺序 执行 ， 不 管 这 个 分 析 是 自 项 同 下 的 还 是 自 底 向 上 的 。 

消除 左 递归 的 “技巧 "是 对 两 个 产生 式 

4 一 4a |8 
进行 蔡 换 。 这 两 个 产生 式 生 成 的 串 包含 一 个 B 和 任意 数量 的 a。 它 们 将 被 
蔡 换 为 下 面 的 产生 式 。 新 的 产生 式 使 用 了 一 个 新 非 终 结 符 号 R《〈 人 代表“ 其 
余部 分 ”) 来 生成 同样 的 串 。 





A— BR 
RaRl|e 


如 果 B 不 以 A 开 头 ， 那 么 A 惑 不 再 有 左 递归 的 产生 式 。 按 照 正则 定义 
的 表示 法 ， 在 两 组 产生 式 中 A 都 被 定 义 为 6 (a) *。 在 4.3.3 节 中 可 以 看 
到 如 何 处 理 A 有 多 个 递归 或 非 递 归 产 生 陈 的 情况 。 


考虑 下 面 的 E 产 生 式 。 它 们 来 和 目 一 个 将 中 组 表达 式 翻 译 成 后 绥 
工 的 SDT: 








E 一 E+T {print(+’);} 
已 — 7 


如 果 我 们 对 E 应 用 标准 的 左 递归 消除 转换 ， 左 递归 产生 式 的 余部 为 
Qa = + T {print(+’);} 


而 B 即 男 一 个 产生 式 的 体 ， 是 T。 如 果 我 们 引入 R 来 表示 E 的 余部 ， 我 
们 就 得 到 如 下 的 产生 式 集合 : 


b&b 一 TR 
R = +T{print(+);}R 
及 一 


当 一 个 SDD 的 动作 是 计算 属性 的 值 ， 而 不 是 仅仅 是 打印 输出 时 ， 我 
们 必须 更 加 小 心地 考虑 如 何 消除 文法 中 的 左 递归 。 然 而 ， 如 果 这 个 SDD 
征 S 属 性 的 ， 那 么 我 们 总 是 可 以 通过 将 计算 属性 值 的 动作 放 在 新 产生 式 
中 的 适当 位 置 上 来 构造 出 一 个 SDT。 


我 们 将 给 出 一 个 通用 的 解决 方案 ， 以 解决 只 有 单个 递归 产生 式 、 单 
个 非 递 归 产 生 式 并 且 访 左 递归 非 终结 符号 只 有 单个 属性 的 情况 。 将 这 个 
方案 推广 到 多 个 递归 / 非 递归 产生 式 的 情况 并 不 困难 ， 但 是 写 起 来 非常 
抹 烦 。 假 设 这 两 个 产生 式 是 : 

4 — AY {A.a=g(Ai.a,Y.y)} 
4 一 X{A.a= ff(X.7z)} 





这 里 A.a 是 左 递 归 非 终结 符号 A 的 综合 属性 ， 而 X 和 Y 是 单个 文法 符号 ， 
分 别 有 综 合 属性 X.x 和 Y.y。 因 为 这 个 方案 在 递归 的 产生 式 中 用 任意 的 函 
数 g 来 计算 A.a， 而 在 第 二 个 产生 式 中 用 任意 函数 {来 计算 A.a 的 值 ， 所 以 
这 两 个 符号 可 以 代表 由 多 个 文法 符号 组 成 的 串 ， 每 个 符号 都 有 目 己 的 局 
性 。 在 每 种 情况 下 ，f 和 g 可 以 把 它们 能 够 访问 的 属性 当 作 它们 的 参数 ， 
只 要 这 个 SDD 是 S 属 性 的 。 








我 们 要 把 基础 文法 改 成 


A — XR 
及 一 YR|E 


图 5-23 指 出 了 在 新 文法 上 的 SDT 必 须 做 的 事情 。 在 图 5-23a 中 ， 我 们 
看 到 的 是 原文 法 之 上 的 后 级 SDT 的 运行 效果 。 我 们 将 f 应 用 一 次 ， 该 次 
应 用 对 应 于 产生 式 A~X 的 使 用 。 然 后 我 们 应 用 函数 g， 应 用 的 次 数 和 我 
们 使 用 产生 式 A -, AY 的 次 数 一 样 。 因 为 R 生 成 了 Y 的 一 个 余部 ， 它 的 翻 
译 依赖 于 它 左 边 的 串 ， 即 一 个 形 如 XYY...Y 的 串 。 对 产生 式 R ,YR 的 每 
次 使 用 都 导致 对 g 的 一 次 应 用 。 对 于 R， 我 们 使 用 一 个 继承 属性 R.i 来 时 
计 从 A.a 的 值 开 始 不 断 应 用 g 所 得 到 的 结 


J 


A.a = g(f(X.z), Yi.y) Yo X R.i= f(X.7) 





A.a = g(g(f(X.z), Y1.y), Y2.y) 


4.a = f(X.z) Yi 到 Ri= g(f(X.z), Yi.y) 


X Y2” R.i= og(g(f(X.z),Y1.y), Y2.y) 


| 


a) b) : 
图 5-23 ”消除 一 个 后 缓 SDT 中 的 左 递 归 


除 此 之 外 ，R 还 有 一 个 没有 在 图 5-23 中 显示 的 综合 属性 R.s。 当 R 不 
再 生成 文法 符 写 Y 时 才 开 始 计算 这 个 属性 的 值 ， 这 个 时 间 点 是 以 产生 式 
R 瑟 的 使 用 为 标志 的 。 然 后 R.s 沿 着 树 癌 上 拷贝 ， 最 后 它 就 可 以 变 成 对 
应 于 整个 表达 式 XYY...Y 的 A.a 的 值 。 从 A 生成 XYY 的 情况 显示 在 图 5-23 
中 ， 我 们 看 到 在 图 5-23a 中 的 根 结 点 上 的 A.a 的 值 使 用 了 两 次 g， 而 在 图 5- 
pi 了 两 次 g， 而 正 是 这 个 结 点 上 的 R.s 的 值 被 沿 着 树 
名 上 拷贝 。 


为 了 完成 这 个 翻译 ， 我 们 使 用 下 列 SDT: 


A = KK Ri AXa)} RR {M0= Rs)} 
R= YY {Ri = dt, Y.y)} Ri 1 二 R1.s} 
R = 上 {h.s=R.i) 
请 注意 ， 继 承 属性 R.i 在 产生 式 体 中 R 的 一 次 使 用 之 前 完成 求 值 ， 而 


综合 属性 A.a 和 R.s 在 产生 式 的 结尾 完成 求 值 。 因 此 ， 计 算 这 些 属性 时 需 
要 的 任何 值 都 已 经 在 左边 计算 完成 ， 变 成 了 可 用 的 值 。 








5.4.5 工 属 性 定义 的 SDT 


在 5.4.1 节 ， 我 们 将 S 属 性 的 SDD 转 换 成 为 后 级 SDT， 它 的 动作 位 于 
产生 式 的 右 端 。 只 要 基础 文法 是 LR 的 ， 后 绥 SDT 就 可 以 按照 自 底 向 上 的 
方式 进行 语法 分 析 和 翻译 。 


现在 ,我 们 考虑 更 加 一 般 化 的 情况 ， 即 LL 属性 的 SDD。 我 们 假设 基 
础 文法 将 以 目 顶 回 下 的 方式 进行 语法 分 析 ， 因 为 如 果 不 是 这 样 ， 那 么 翻 
译 过 程 常常 无 法 和 一 个 LL 或 LR 语法 分 析 占 一 起 完成 。 对 于 任何 文法 ， 
我 们 只 需要 将 动作 附加 到 一 标语 法 分 析 树 中 ， 并 在 对 这 柠 树 进行 前 序 通 
历时 执行 这 些 动作 ， 便 可 以 实现 下 面 的 技术 。 

将 一 个 L 属 性 的 SDD 转 换 为 一 个 SDT 的 规则 如 下 : 

1) 把 计算 茶 个 非 终结 符号 A 的 继承 属性 的 动作 插入 到 产生 式 体 中 
紧 靠 在 A 的 本 次 出 现 之 前 的 位 置 上 。 如 果 A 的 多 个 继承 属性 以 无 环 的 方 
就 需要 对 这 些 属性 的 求 值 动作 进行 排序 ， 以 便 先 计算 需要 


2) 将 计算 一 个 产生 陈 头 的 综合 属性 的 动作 放置 在 这 个 产生 式 体 的 





我 们 将 使 用 两 个 例子 来 说 明 这 些 原则 。 第 一 个 例子 是 关于 排版 的 。 
它 说 明了 如 何 将 编译 技术 应 用 于 其 他 的 语言 处 理应 用 ， 编 译 技术 的 应 用 
范围 并 不 限于 我 们 通常 认为 的 程序 设计 语言 。 第 二 个 例子 是 关于 一 个 典 
3 这 个 构造 是 某 种 形式 的 while 
语句 。 








We 这 个 例子 来 自 于 数学 公式 排版 语言 。Eqn 是 这 种 语言 的 早期 例 
， 来 和 目 Eqn 的 思想 仍然 可 以 在 Tex 排 版 系统 中 找到 ， 本 书 就 是 用 Tex 排 
版 系统 排版 的 。 


我 们 将 关注 定义 下 标 、 下 标的 下 标 等 排版 能 力 ， 而 忽略 了 上 标 、 和 县 
加 的 分 数 以 及 其 他 数学 功能 。 在 Eqn 语 言 中 ， 人 们 可 以 使 用 a sub i sub 
j 来 设 定 表达 式 号。 一 个 简单 的 boxes《 即 由 一 个 方 框 括 起 来 的 文本 元 
素 ) 的 文法 是 : 





B— B1B, | BisubB, | (B1) | text 
对 应 于 这 四 个 产生 式 ， 一 个 方 框 可 以 是 下 列 之 一 : 
1) 两 个 并 列 的 方 框 ， 其 中 第 一 个 方 框 B1 在 另 一 个 方 框 B; 的 左边 。 


2) 一 个 方 框 和 一 个 下 标 方 框 。 第 二 个 方 框 的 尺寸 较 小 且 位 置 较 
低 ， 位 于 第 一 个 方 框 的 右边 。 


3) 一 个 用 括号 括 起 来 的 方 枉 ， 用 于 方 枉 和 下 标的 分 组 。Eqn 和 Tex 
都 使 用 花 括号 进行 分 组 ， 但 是 我 们 将 使 用 通常 的 圆 括 号 来 分 组 ， 以 避免 
和 SDT 动 作 两 边 的 括号 混 消 。 


4) 一 个 文本 串 ， 也 就 是 任何 字符 串 。 


这 个 文法 是 二 义 性 的 ， 但 是 如 果 我 们 令 下 标 和 并 列 关 系 都 是 右 结合 
的 ， 并 且 令 sub 的 优先 级 高 于 并 列 ， 那 么 我 们 仍然 可 以 使 用 它 来 完成 目 
底 向 上 的 语法 分 析 。 


表达 式 的 排版 过 程 就 是 由 较 小 的 方 框 构造 出 较 大 的 方 框 的 过 程 。 在 
图 5-24 中 ，E1 的 方 框 和 .height 将 被 并 列 放置 形成 方 框 E1.height。 而 El 的 
左边 方 框 本 身 又 是 从 E 的 方 框 和 下 标 1 的 方 框 构 造 得 到 的 。 下 标 1 的 处 理 
方法 是 将 它 的 方 框 缩小 大 约 30%， 并 放 在 较 低 的 位 置 上 ， 然 后 把 它 放 在 
E 的 方 框 之 后 。 虽 然 我 们 将 把 .height 作 为 一 个 文本 串 进 行 处 理 ， 但 它 的 
方 框 中 的 长 方形 会 说 明 它 是 如 何 从 各 个 字母 对 应 的 方 框 构造 得 到 的 。 




















了 二 
EF eaht 


图 5-24 从 较 小 的 方 框 构造 较 大 的 方 框 


在 这 个 例子 中 ， 我 们 只 考虑 这 些 方 框 的 垂直 方向 的 几何 性 质 。 水 平 
方向 的 几何 性 质 ， 即 方 框 的 宽度 ， 也 很 有 意思 ， 当 不 同 字符 具有 不 同 宽 
度 时 更 是 如 此 。 可 能 看 起 来 不 是 那么 明显 ， 但 是 图 5-24 中 的 各 个 字符 确 
实 具 有 不 同 的 宽度 。 


和 这 些 方 框 的 垂直 方向 几何 性 质 相 关 的 值 如 下 : 


1) 字体 大 小 Cpoint size) 。 它 被 用 于 在 一 个 方 框 中 设置 文本 。 我 
们 将 假设 不 在 下 标 中 的 字符 被 设置 为 10 点 ， 也 就 是 一 般 书 籍 的 字体 大 
小 。 进 一 步 ， 我 们 假设 如 果 一 个 方 框 的 字体 大 小 是 p， 那 么 它 的 下 标 方 
框 的 字体 大 小 就 是 0.7p。 继 承 属性 B.ps 表 示 块 B 的 字体 大 小 反 数 。 这 个 
属性 必须 是 继承 属性 ， 因 为 一 个 给 定 的 块 的 上 下 文 决 定 了 这 个 块 在 哪个 
下 标 层 次 ， 从 而 决定 需要 缩小 多 少 。 


2) 每 个 方 枉 有 一 个 基线 (baseline) ， 它 是 对 应 于 文本 行 的 底部 的 
垂直 位 置 ， 它 不 考虑 像 g 这 样 的 伸展 到 正常 基线 之 下 的 字符 。 在 图 5-24 
中 ， 点 虚线 就 表示 了 方 框 E、.height 以 及 整个 表达 式 的 基线 。 包 含 了 下 
标 1 的 方 框 的 基线 经 过 了 调整 ， 以 便 把 这 个 下 标 放 在 较 低位 置 。 


3) 每 个 方 框 有 一 个 高 度 Cheight) ， 它 是 从 方 框 顶部 到 方 框 基线 的 
距离 。 综 合 属 性 B.ht 给 出 了 方 框 B 的 高 度 。 


- 每 个 方 框 有 一 个 深度 (depth) ， 它 是 从 基线 到 达 方 框 底 部 的 距 
。 综 合 属性 B.dp 给 出 了 方 框 B 的 深度 。 


图 5-25 中 的 SDD 给 出 了 计算 字体 大 小 、 高 度 和 深度 的 规则 。 产 生 式 
1 的 功能 是 把 初始 值 10 赋 给 B.ps。 














语义 规则 


B.ps= 10 


Bi.ps = B.ps 
B».ps = B.ps 
B.ht= max(Bi.ht, B».ht) 
B.dp = max( Bi1.dp, B2.dp) 
B= B1 sub B» | Bi.ps= B.ps 
B2.ps =0.7 x 也 .ps 
B.ht= max(Bi.ht, B».ht — 0.25 x B.ps) 
B.dp = max(Bi.dp, B».dp + 0.25 x B.ps) 


B—(B:) Bi.ps = B.ps 


B.ht= Bi.ht 
B.dp = Bi.dp 


Btext B.ht = getHt(B.ps, text.lerval) 
B.dp = getDp (B.ps, text.lerval) 





图 5-25 方 框 排版 的 SDD 


产生 式 2 处 理 并 列 的 情况 。 字 体 大 小 被 沿 看 语法 分 析 树 同 下 拷贝， 
也 就 是 说 ， 一 个 方 框 的 两 个 子 方 框 从 这 个 较 大 的 方 框 中 继承 了 同样 的 字 
体 大 小 点 数 。 高 度 和 深度 是 沿 着 语法 分 析 树 向 上 计算 的 ， 总 是 取 两 者 的 
最 大 值 。 也 就 是 说 ， 大 方 框 的 高 度 是 它 的 两 个 组 成 部 分 的 高 度 的 最 大 
值 ， 深 度 也 按照 类 似 的 方法 计算 。 


产生 式 3 处 理 下 标 ， 它 是 最 复杂 的 。 在 这 个 简化 了 的 例子 中 ， 我 们 
假设 一 个 下 标 方 框 的 字体 大 小 是 它 的 父 方 框 的 大 小 的 70%。 实 际 情况 会 
更 加 复 洒 ， 因 为 下 标 不 可 能 无 限 缩 小 。 在 实践 中 ， 在 几 层 下 标 之 后 ， 下 
标的 大 小 就 几乎 不 再 缩小 。 另 外 我 们 还 假设 一 个 下 标 方 框 的 基线 网 下 移 
动 了 父 方 框 的 字体 点 数 大 小 的 25%， 同 样 ， 实 际 情况 要 更 加 复杂 。 


产生 式 4 在 使 用 括号 的 时 候 正 确 地 拷贝 各 个 属性 。 最 后 ， 产 生 式 5 处 
理 表示 文本 方 框 的 叶子 结 点 。 在 这 里 ， 实 际 情况 也 是 很 复杂 的 ， 因 此 我 
们 只 显示 了 两 个 未 定义 的 函数 getHt 和 getDp。 它 们 检查 各 个 字体 的 表 
格 ， 以 确定 文本 串 中 的 全 部 字符 的 最 大 高 度 和 最 大 深度 。 我 们 假设 这 个 
文本 串 中 的 字符 是 由 终结 符号 text 的 属性 lexval 提 供 的 。 


最 后 一 个 任务 是 按照 图 5-25 中 处 理 L 属 性 SDD 的 规则 ， 将 这 个 SDD 






































转换 为 SDT。 正 确 的 SDT 显 示 在 图 5-26 中 。 因 为 产生 式 的 体 比 较 长 ， 为 
了 增加 可 读 性 ， 我 们 把 它们 分 割 到 多 行 中 ， 并 把 动作 对 齐 排列 。 因 此 ， 
产生 式 体 包含 了 到 下 一 个 产生 式 的 头 为 止 的 多 行内 容 。 


语义 动作 
{ B.ps= 10;} 


{Bi.ps = B.ps;} 

{Ba.ps = B.ps; } 

{ B.ht = max(Bi.ht, B2.ht); 
B.dp= max(Bi.dp, B».dp); } 


{Bi.ps= B.ps;} 


{B2.ps = 0.7 x B.ps;} 
{ B.ht= max(Bi.ht, Bo.ht— 0.25 x B.ps); 
B.dp= max(Bi.dp, B».dp + 0.25 x B.ps); } 


{Bi.ps = B.ps; } 

{ B.ht= Bi.ht; 
B.dp = Bi.dp;} 

{ B.ht= yetHt(B.ps,text.lerval); 
B.dp = getDp(B.ps,text.lerval); } 





图 5-26 方 框 排版 的 SDT 


我 们 的 下 一 个 例子 是 考虑 一 个 简单 的 while 语 句 ， 考 虑 如 何 为 这 种 
类 型 的 语句 生成 中 间 代码 。 中 间 代码 将 被 当 作 一 个 值 为 字符 串 的 属性 。 
稍 后 我 们 将 探究 一 些 高 效 的 技术 。 这 些 技术 在 我 们 进行 语法 分 析 的 时 候 
顺序 输出 一 个 取 值 为 字符 串 的 属性 的 各 个 部 分 ， 从 而 避免 了 通过 长 字符 
串 的 拷贝 来 构造 出 更 长 的 字符 串 。 这 个 技术 在 例 5.17 中 已 经 介绍 过 。 在 
那个 例子 中 ， 我 们 以 < 边 扫 描 边 生成 * 的 方式 生成 了 一 个 中 组 表达 式 的 后 
缀 形式 ， 而 不 是 把 表达 式 的 后 绥 形 式 当 作 一 个 属性 来 计算 。 然 而 ， 在 我 
们 第 一 次 表示 中 间 代 码 生成 时 ， 我 们 通过 字符 囊 的 连接 来 创建 一 个 信和 为 
字符 串 的 属性 。 


[ 琶 辐 在 这 个 例子 中 ， 我 们 只 需要 一 个 产生 式 


S 一 while (C) S1 














这 里 ，S$ 是 生成 各 种 语句 的 非 终 结 符 号 ， 我 们 假设 这 些 语 句 包括 这 语句 、 


赋值 语句 和 其 他 类 型 的 语句 。 在 这 个 例子 中 ，C 表 示 一 个 条 件 表达 式 
一 一 一 个 值 为 真 或 假 的 布尔 表达 式 。 


在 这 个 关于 语句 控制 流 的 例子 中 ， 我 们 只 需要 生成 多 个 标号 。 我 们 
假设 其 他 的 中 间 代 码 指令 都 由 这 个 SDT 的 未 显示 部 分 生成 。 更 明确 地 
讲 ， 我 们 生成 显 式 的 形 如 label 工 的 指令 ， 其 中 工 是 一 个 标识 符 。 这 个 指 
的 标号 是 站 。 我 们 假设 中 间 代 码 和 2.8.4 节 中 介绍 的 代 
ys 


这 个 while 语 句 的 含义 是 首先 对 条 件 表 达 式 C 求 值 。 如 果 它 为 真 ， 控 
制 就 转向 $j 的 代码 的 开始 处 。 如 果 C 的 值 为 假 ， 那 么 控制 就 转向 跟 在 这 
个 while 语 句 的 代码 之 后 的 代码 。 我 们 必须 设计 S51 的 代码 ， 使 得 它 在 结束 
的 时 候 能 够 跳 转 到 这 个 whilet es 图 5-27 没 有 显示 出 跳 


转 到 对 C 求 值 的 代码 的 开始 处 的 指令 
我 们 使 用 下 面 的 属性 来 生成 正确 的 中 间 代 码 : 


1) 继承 属性 S.next 是 必须 在 S 执 行 结束 之 后 执行 的 代码 的 开始 处 的 





2) 综合 属性 S. 0 它 实 现 了 语句 S$， 并 在 最 后 
有 一 条 跳 转 到 S.next 的 指令 


3) 继承 属性 C.true 是 必须 在 C 为 真 时 执行 的 代码 的 开始 处 的 标号 。 
4) 继承 属性 C.false 是 必须 在 C 为 假 时 执行 的 代码 的 开始 处 的 标号 。 


综合 属性 C.code 是 一 个 中 间 代 码 的 序列 ， 它 实现 了 条 件 表 达 式 
C， 0 true 或 者 C.false。 


计算 while 语 句 的 这 些 属 性 的 SDD 显 示 在 图 5-27 中 。 有 几 个 要 点 需 
解释 一 下 : 








9 全 while(C ) 95 ZL1 = new(); 
L2 = meuw(); 
Si.nert = L1; 


C.false = S.next; 
C.true = L2; 
S.code = label || L1 || C.code || label || L2 || Sricode 





图 5-27 whi le 语句 的 SDD 


。 函数 new 生 成 了 新 的 标号 。 

。 变量 L1 和 L2 存 放 了 在 代码 中 需要 的 标号 。L1 表 示 这 个 while 语 句 的 
代码 的 开始 处 ， 我 们 必须 安排 Si 在 执行 完毕 之 后 跳 转 到 这 里 。 这 就 
是 我 们 把 Sj.next 设 置 为 L1 的 原因 。L2 是 $1 的 代码 的 开始 处 ， 它 变 成 
了 C.trme 的 值 ， 因 为 在 C 为 真 时 会 跳 转 到 那里 。 

请 注意 C.false 被 设置 为 S.next， 因 为 当 条 件 为 假 时 ， 就 会 执行 S 的 代 
码 之 后 的 代码 。 

我 们 使 用 | 作为 连接 各 个 中 间 代 码 片 段 的 符号 。 因 此 ，S.code 的 值 的 
以 标号 L1 开 始 ， 然 后 是 条 件 表 达 式 C 的 代码 ， 然 后 是 男 一 个 标号 
L2， 然 后 是 $1 的 代码 。 


这 个 SDD 是 L 属 性 的 。 当 我 们 把 它 转换 为 SDT 时 ， 还 需要 考虑 如 何 
处 理 标 号 L1 和 L2， 它 们 是 变量 而 不 是 属性 。 如 果 我 们 把 语义 动作 当 作 
哑 非 终结 符号 来 处 理 ， 那 么 这 样 的 变量 可 以 当 作 哑 非 终结 符号 的 综合 属 
性 来 处 理 。 因 为 L1 和 L2 不 依赖 于 其 他 属性 ， 它 们 可 以 被 分 配 到 产生 式 
的 第 一 个 语义 动作 中 。 实 现 这 个 LL 属性 定义 的 带 有 内 骸 语 义 动 作 的 SDT 
显示 在 图 5-28 中 。 

















Swhile( {ZL1= new();L2= new(); C.false = S.next; C.true = L2;} 
C ) 


{ Si.nezt= L1; 
S51 { S.code = label || L1 || C.code || label || L2 | S1.code; } 





图 5-28 ”whi le 语句 的 SDT 


5.4.6 ”5.4 节 的 练习 


练习 5.4.1: 我 们 在 5.4.2 节 中 提 到 可 能 根据 语法 分 析 栈 中 的 LR 状态 
来 推导 出 这 个 状态 表示 了 什么 文法 符号 。 我 们 如 何 推导 出 这 个 信息 ? 


练习 5.4.2: 改写 下 面 的 SDT: 


A—Af{a}BIAB{6}|0 
BB{c}AIBA{d|I 


使 得 基础 文法 变 成 非 左 递归 的 。 这 里 ，a、b、c 和 d 是 语义 动作 ，0 
和 1 是 终结 符号 。 


! 练习 5.4.3: 下 面 的 SDT 计 算 了 一 个 由 0 和 1 组 成 的 串 的 值 。 它 把 输 
入 的 符号 串 当 作 按照 正二 进 制 数 来 解释 。 


B33 3 Bvts= 2 Bwall 
| Bi 1 1{B.val = 2 x Bi.val + 1} 
1 {B.val = 1} 


改写 这 个 SDT， 使 得 基础 文法 不 再 是 左 递归 的 ， 但 仍然 可 以 计算 出 整个 
输入 串 的 相同 的 B.val 的 值 。 


! 练习 5.4.4: 为 下 面 的 产生 式 写 出 一 个 和 例 5.10 类 似 的 工 属性 
SDD。 这 里 的 每 个 产生 式 表示 一 个 常见 的 C 语 言 中 那样 的 控制 流 结构 。 
你 可 能 需要 生成 一 个 三 地 址 语句 来 跳 转 到 某 个 标号 L， 此 时 你 可 以 生成 
语句 goto L。 








1) Ss -if (C0 )S else 5» 
2) 5 一 do S1 while ( C ) 
i 





请 注意 ， 列 表 中 的 任何 语句 都 可 能 包含 一 条 从 它 的 内 部 跳 转 到 下 一 个 语 
句 的 跳 转 指令 ， 因 此 简单 地 为 各 个 语句 按 顺 序 生成 代码 是 不 够 的 。 


练习 5.4.5: 按照 例 5.19 的 方法 ， 把 在 练习 5.4.4 中 得 到 的 各 个 SDD 转 





换 成 一 个 SDT。 


练习 5.4.6: 修改 图 5-25 中 的 SDD， 使 它 包含 一 个 综合 属性 B.le， 即 
一 个 方 框 的 长 度 。 两 个 方 框 并 列 后 得 到 的 方 框 的 长 度 是 这 两 个 方 框 的 长 
度 和 。 然 后 把 你 的 新 规则 加 入 到 图 5-26 中 SDT 的 合适 位 置 上 。 


练习 5.4.7: 修改 图 5-25 中 的 SDD， 使 得 它 包 含 上 标 ， 用 方 框 之 间 的 
运算 符 sup 表 示 。 如 果 方 框 B, 是 方 框 B; 的 一 个 上 标 ， 那 么 将 B, 的 基线 放 
在 Bi 的 基线 上 方 ， 两 条 基线 的 距离 是 0.6 乘 以 B; 的 大 小 。 把 新 的 产生 式 
和 规则 加 入 到 图 5-26 的 SDT 中 去 。 


5.5 ”实现 工 属 性 的 SDD 


因为 很 多 翻译 应 用 可 以 用 L 属 性 定义 来 解决 ， 所 以 我 们 将 在 这 一 节 
人 
Es 


1) 建立 语法 分 析 树 并 注释 。 这 个 方法 对 于 任何 非 循环 定义 的 SDD 
都 有 效 。 我 们 已 经 在 5.1.2 市 中 介绍 了 注释 语法 分 析 树 。 


2) 构造 语法 分 析 树 ， 加 入 动作 ， 并 按照 前 序 顺序 执行 这 些 动作 。 
这 个 方法 可 以 处 理 任 何 工 属性 定义 。 我 们 在 5.4.5 节 中 讨论 了 如 何 把 一 个 
EL 属性 SDD 转 变 成 为 S DT， 还 特别 讨论 了 如 何 根据 这 样 的 SDD 的 语义 规 
则 把 语义 动作 仍 入 到 产生 式 中 。 


在 这 一 他， 我 们 讨论 下 面 的 在 语法 分 析 过 程 中 进行 翻译 的 方法 : 


3) 使 用 一 个 递归 下 降 的 语法 分 析 器 ， 它 为 每 个 非 终结 符号 都 建立 
一 个 函数 。 对 应 于 非 终 结 符号 A 的 函数 以 参数 的 方式 接收 A 的 继承 局 
性 ， 并 返回 A 的 综合 属性 。 


4) 使 用 一 个 递归 下 降 的 语法 分 析 器 ， 以 边 扫描 边 生 成 的 方式 生成 
代码 。 


5) 与 LL 语法 分 析 器 结合 ， 实 现 一 个 SDT。 属 性 的 值 存放 在 语法 分 析 
栈 中 ， 而 各 个 规则 从 栈 中 的 已 知 位 置 获取 需要 的 属性 值 。 


6) 与 LR 语法 分 析 器 结合 ， 实 现 一 个 SDT。 这 个 方法 会 让 人 觉得 惊 
讶 ， 因 为 一 个 L 属 性 SDD 的 SDT 通 常 有 一 些 动作 位 于 产生 式 的 中 间 ， 而 
在 一 个 LR 语法 分 析 过 程 中 ， 我 们 只 有 在 构造 出 一 个 产生 式 体 的 全 部 符 
号 之 后 才能 肯定 我 们 确实 可 以 使 用 这 个 产生 式 。 然 而 ， 我 们 将 看 到 ， 如 
果 基 础 文法 是 LE 的 ， 我 们 总 是 可 以 按照 自 底 向 上 的 方式 来 处 理 语法 分 
析 和 翻译 过 程 。 





5.5.1 在 递归 下 降 语 法 分 析 过 程 中 进行 翻译 


4.4.1 节 讨论 过 ， 一 个 递归 下 降 的 语法 分 析 器 对 每 个 非 终 结 符号 A 都 
有 一 个 函数 A。 我 们 可 以 按照 如 下 方法 把 这 个 语法 分 析 器 扩展 为 一 个 翻 
译 器 : 

1) 函数 A 的 参数 是 非 终 结 符号 A 的 继承 属性 。 

2) 函数 A 的 返回 值 是 非 终 结 符号 A 的 综合 属性 的 集合 。 

在 函数 A 的 函数 体 中 ， 我 们 要 进行 语法 分 析 并 处 理 属性 : 

1) 决定 用 哪 一 个 产生 式 来 展开 A。 

2) 当 需 要 读 入 一 个 终结 符号 时 ， 在 输入 中 检查 这 些 符 号 是 否 
现 。 我 们 假设 分 析 过 程 不 需要 进行 回调 ， 但 是 只 要 在 出 现 语法 错误 时 恢 
复 输入 位 置 ， 束 可 以 把 这 个 方法 扩展 到 带 回溯 的 递归 下 降 语 法 分 析 技 
术 ， 见 4.4.1 节 中 的 讨论 。 


3) 在 局 部 变量 中 保存 所 有 必要 的 属性 值 ， 这 些 值 将 用 于 计算 产生 
和 

















4) 调用 对 应 于 被 选 定 产 生 式 体 中 的 非 终结 符号 的 函数 ， 辐 它们 提 
供 正 确 的 参数 。 因 为 基础 的 SDD 是 L 属 性 的 ， 所 以 我 们 必然 已 经 计算 出 
了 这 些 属性 并 且 把 它们 存放 到 了 局 部 变量 中 。 


证 我 们 考虑 例 5.19 中 while 语 句 的 SDD 和 SDT。 图 5-29 显 示 了 函 
S 的 相关 部 分 的 伪 代 码 说 明 。 


我 们 显示 的 这 个 函数 5 需 要 存储 并 返回 很 长 的 字符 串 。 在 实践 中 ， 
更 有 效率 的 做 法 是 让 像 S 和 C 这 样 的 函数 返回 一 个 指针 ， 指 同 表示 这 些 
字符 串 的 记录 。 那 么 ， 函 数 S 中 的 返回 语句 将 不 会 真 的 把 各 个 组 成 部 分 
连接 起 来 ， 而 是 构造 出 一 个 记录 或 记录 树 。 这 个 记录 或 记录 树 表 示 了 将 
Scode、Ccode、 标 号 L1 和 L2 以 及 文字 串 “Label1” 的 两 次 出 现 全 部 连接 起 
来 而 得 到 的 串 。 











string S(label nezh { 
string Scode, Ccode; /# 存 放 代码 片段 的 局 部 变量 */ 
label L1, L2; /* 局 部 标号 */ 
if ( 当前 输入 == 词法 单元 while ) { 
读 取 输 入 ; 
检查 “(' 是 下 一 个 输入 符号 ， 并 读 取 输 入 ; 
Ll1 = new(); 
L2 = new(); 
Ccode = C(nezt, L2); 
检查 ')" 是 下 一 个 输入 符号 ， 并 读 取 输入 ; 
Scode = S(L1); 
return("label" || L1 || Ccode || "Label" || L2 || Scode); 


} 
else /* 其 他 语句 类 型 */ 








图 5-29 ”用 一 个 递归 下 降 语 法 分 析 器 实现 whi le 语 旬 的 翻译 


现在 我 们 将 处 理 图 5-26 中 用 于 方 框 排版 的 SDT。 我 们 首先 处 理 
语法 分 析 问 题 ， 因 为 图 5-26 中 的 基础 文法 是 二 义 性 的 。 下 面 经 过 转换 的 
文法 使 得 并 列 运算 和 下 标 运 算 都 是 右 结 合 的 ， 而 sub 的 优先 级 高 于 并 
列 : 





= 六 坡 

一 | 了 

=> FsubT |F 
一 (B) | text 


吕 辣 罗 王 








引入 两 个 非 终 结 符 号 T 和 F 的 灵感 来 自 于 表达 式 中 的 项 和 因子 。 这 
里 ， 由 F 生 成 的 一 个 “因子 ”要 么 是 一 个 括号 中 的 方 框 ， 要 么 是 一 个 文本 
串 。 由 TIT 生成 的 一 个 “项 ”是 一 个 带 有 一 系列 下 标的 “因子 *”， 而 由 B 生 成 的 
一 个 方 框 是 一 个 并 列 的 “项 ”的 序列 。 


T 和 F 的 属性 和 B 的 属性 一 样 ， 因 为 新 的 非 终 结 符号 也 表示 方 框 。 引 
入 它们 的 目的 仅仅 是 为 了 帮助 进行 语法 分 析 。 因 此 ，T 和 F 都 有 一 个 继承 
属性 ps 和 综合 属性 ht 及 dp。 它 们 的 语义 动作 可 以 从 图 5-26 的 SDT 中 修改 
得 到 。 

















这 个 文法 还 不 可 以 下 接 进 行 自 项 加 下 的 语法 分 析 ， 因 为 B、T 的 产 
生 式 都 有 相同 的 前 级 。 比 如 ， 考 虑 T。 一 个 自 项 向 下 的 语法 分 析 器 不 能 
仅 在 输入 中 向 前 看 一 个 符号 就 在 IT 的 两 个 产生 式 间 做 出 决定 。 幸 运 的 
是 ， 我 们 可 以 使 用 4.3.4 市 中 讨论 的 提取 左 公 因子 的 方法 ， 使 得 这 个 文法 
可 以 进行 自 项 向 下 语法 分 析 。 处 理 SDT 时 ， 公 共 前 级 的 概念 也 被 应 用 到 
ee 
碟 性 ps 。 


图 5-30 中 T (ps) 的 伪 代 码 中 加 入 了 F (ps) 的 代码 。 对 产生 式 T-F 
sub Ti |F 应 用 提取 左 公 因子 的 操作 之 后 ， 只 需要 对 F 调 用 一 次 。 这 个 伪 
代码 显示 了 将 该 次 调用 蔡 换 为 FE 的 代码 之 后 的 结果 。 





(float, Hoat) 了 (foat ps) { 
float hl1, h2, dl, d2; /* 用 于 存放 高 度 和 深度 的 局 部 变量 */ 
/* (ps) 代码 开始 */ 
if (当前 输入 == '(' ) { 
读 取 下 一 个 输入 ; 
(h1,d1) = B(ps); 
if (当前 输入 != ")' ) 语 法 错误 : 期 待 人 小; 
读 取 下 一 个 输入 ; 


else if ( 当前 输入 == text ) { 
令 t 等 于 词法 值 text.lexval ; 
读 取 下 一 个 输入 ; 
hl = getHt(ps, t); 
dl = getDp(ps, t); 
} 
else 语 法 错误 : 期 待 text 或 者 和 ('; 
/* 了 (ps) 代码 结束 */ 
这 (当前 输入 == sub ) { 
读 取 下 一 个 输入 ; 
(h2,d2) = T(0.7 # ps); 
return (max(h1, h2 一 0.25 * ps), max(d1,d2 + 0.25+* ps)); 


} 
return (hl1,d1); 








图 5-30 递归 下 降 的 方 框 排 板 
B 的 冰 数 以 T(10.0〉 的 方式 调用 函数 T， 我 们 没有 在 这 里 显示 这 个 
调用 。 该 次 调用 返回 一 个 二 元 组 ， 包 括 由 非 终结 符号 T 生 成 的 方 框 的 高 
度 和 深度 。 在 实践 中 ， 它 将 返回 一 个 包含 高 度 和 深度 的 记录 。 











函数 T 首 先 检 查 输入 是 否 为 左 括 号 。 如 果 是 ， 它 就 必须 处 理 产 生 式 
FE- (B) 。 它 保存 了 括号 中 B 返 回 的 任何 值 ， 但 是 如 果 B 后 面 没 有 跟着 
一 个 右 括号 ， 那 么 就 存在 语法 错误 。 处 理 这 个 语法 错误 的 方式 没有 在 这 
里 显示 。 


人 否则， 如 果 当 前 的 输入 是 text， 那 么 函数 T 使 用 getHt 和 getDp 来 确定 
这 个 文本 的 高 度 和 深度 。 


然后 ， 函 数 T 确 定 下 一 个 方 框 是 否 为 一 个 下 标 ， 如 果 是 就 调整 point 
size。 我 们 使 用 和 图 5-26 的 产生 式 B -,B sub B 关 联 的 语义 动作 来 处 理 较 
大 方 框 的 高 度 和 深度 。 否 则 ， 我 们 直接 返回 F 所 返回 的 值 : 《hl， 
dl) 。 











5.5.2” 边 扫 摘 边 生 成 代码 





如 例 5.20 所 示 ， 使 用 属性 来 表示 代码 并 构造 出 很 长 的 串 不 能 满足 我 
们 的 和 要求， 原因 是 多 方面 的 ， 比 如 拷贝 和 移动 这 些 串 字符 时 需要 很 长 的 
时 间 。 在 通常 情况 下 ， 比 如 在 我 们 的 代码 生成 例子 中 ， 我 们 可 以 通过 执 
行 一 个 SDT 中 的 语义 动作 ， 逐 步 把 各 个 代码 片段 添加 到 一 个 数组 或 输出 
文件 中 。 要 保证 这 项 技术 能 够 正确 应 用 ， 下 列 要 素 必 不 可 少 : 


1) 存在 一 个 〈 一 个 或 多 个 非 终 结 符 号 的 ) 主 属 性 。 为 方便 起 见 ， 
我 们 假设 主 属性 都 以 字符 串 为 值 。 在 例 5.20 中 ， 属 性 S.code 和 C.code 是 
主 属性 ， 而 其 他 属性 不 是 主 属性 。 

2) 主 属 性 是 综合 属性 。 

3) 对 主 属性 求 值 的 规则 保证 : 

Q 主 属性 是 将 相关 产生 式 体 中 的 非 终 结 符号 的 主 属性 值 连接 起 来 
得 到 的 。 连 接 时 也 可 能 包括 其 他 非 主 属性 的 元 素 ， 比 如 字符 串 label 和 标 
号 L1 及 L2 的 值 。 


Q@ 各 个 非 终 结 符号 的 主 属性 值 在 连接 运算 中 出 现 的 顺序 和 这 些 非 
终结 符号 在 产生 式 体 中 的 出 现 顺 序 相 同 。 











上 面 这 些 条 件 使 得 我 们 在 构造 主 属性 时 只 需要 在 适当 的 时 候 友 出 这 
个 连接 运算 中 的 非 主 属性 元 素 。 我 们 可 以 依靠 对 一 个 产生 式 体 中 的 非 终 
结 符号 的 对 应 函数 的 递归 调用 ， 以 增 量 方式 生成 它们 的 主 属性 。 


我 们 可 以 修改 图 5-29 中 的 函数 ， 使 得 它 生成 主 属性 S.code 的 各 
元 系 ， 而 不 是 把 它们 保存 起 来 ， 再 连接 得 到 S.code 的 一 个 返回 值 。 经 
过 修改 的 函数 S 显 示 在 图 5-31 中 。 




















void S(label nezt) { 

label L1, L2; /* 局 部 标号 */ 

让 ( 当前 输入 == 词法 单元 while ) { 
读 取 输入 ; 
检查 “(' 是 下 一 个 输入 符号 , 并 读 取 输入 
L1 = new!(); 
L2 = new(); 
print("label", L1); 
C (nezt, L2); 
检查 “) 是 下 一 个 输入 符号 , 并 读 取 输 入 ; 
print("label", L2); 
S(L1); 


} 
else /* 其 他 语句 类 型 */ 





图 5-31 while 语 和 句 的 on-the-fly 的 递归 下 降 代 码 生 成 


在 图 5-31 中 ，S 和 C 现 在 不 返回 任何 值 ， 因 为 它们 唯一 的 综合 属性 是 
通过 打印 生成 的 。 而 且 这 些 打 印 语句 的 位 置 很 重要 。 打 印 输出 的 顺序 
是 : 首先 是 label L1， 然 后 是 C 的 代码 ( 它 和 图 5-29 中 的 Ccode 的 值 相 
同 ) ， 然 后 是 label L2， 最 后 是 对 S 的 递归 调用 所 生成 的 代码 ( 它 和 图 5- 
29 中 的 Scode 的 值 相同 ) 。 这 样 ， 对 $S 的 一 次 调用 所 打印 的 代码 和 图 5-29 
中 返回 的 Scode 的 值 相 同 。 





主 属性 的 类 型 


我 们 的 简单 假设 要 求 主 属性 具有 字符 串 属性 ， 这 个 限制 实际 上 太 
严格 了。 真实 要 求 是 所 有 主 属性 的 类 型 的 值 必 须 能 够 通过 连接 各 个 元 
素 而 构造 得 到 。 比 如 ， 任 何 类 型 的 对 象 列表 也 可 以 作为 主 属性 的 类 
型 ， 只 要 这 些 列表 的 表示 方法 允许 我 们 把 元 际 高 效 地 加 入 到 列表 的 尾 
部 。 因 此 ， 如 果 主 属性 的 目的 是 表示 一 个 中 间 代 码 语句 的 序列 ， 我 们 
就 可 以 在 一 个 对 象 数组 的 尾部 不 断 写 入 语句 ， 最 终生 成 中 间 代 码 。 当 








然 ， 这 个 列表 还 需要 满足 5.5.2 节 中 给 出 的 其 他 要 求 。 比 如， 一 个 主 属 
性 值 必须 由 其 他 主 属性 值 按照 非 终结 符号 的 顺序 连接 得 到 。 





我 们 附带 地 对 基础 SDT 进 行 相同 的 修改 : 将 一 个 主 属性 的 构造 转变 
为 发 出 这 个 属性 的 元 素 的 语义 动作 。 在 图 5-32 中 ， 我 们 可 以 看 到 图 5-28 
的 SDT 被 修改 成 边 扫描 边 生 成 代码 的 SDT。 





9 — while( {Li1= new(); LL2= new(); C.false = S.nezt; 
C.true = L2; print("label", L1); } 


C ) { 51.nezt 一 工 1; print("label", L2); } 
D1 





图 5-32 边 扫 描 边 生成 while 语 和 句 的 代码 的 SDT 


5.5.3 工 属 性 的 SDD 和 LL 语法 分 析 


假设 一 个 L 属 性 SDD 的 基础 文法 是 一 个 LL 文法 ， 并 且 我 们 已 经 按照 
5.4.5 市 中 描述 的 方法 把 它 转换 成 一 个 SDT， 其 语义 动作 被 敬 入 到 各 个 产 
生 式 中 。 然 后 ， 我 们 就 可 以 在 LL 语法 分 析 过 程 中 完成 翻译 过 程 ， 其 中 
的 语法 分 析 栈 需要 进行 扩展 ， 以 存放 语义 动作 和 属性 求 值 所 需 的 茶 些 数 
据 项 。 一 般 来 说 ， 这 些 数据 项 是 属性 值 的 找 贝 。 


除了 那些 代表 终结 符号 和 非 终 结 符号 的 记录 之 外 ， 语 法 分 析 栈 中 还 
将 保存 动作 记录 (action-record) 和 综合 记录 (synthesize-record) ， 其 
中 动作 记录 表示 即将 被 执行 的 语义 动作 ， 而 综合 记录 保存 非 终结 符号 的 
综合 属性 值 。 我 们 使 用 下 列 两 个 原则 来 管理 栈 中 的 属性 : 


。 非 终结 符号 A 的 继承 属性 放 在 表示 这 个 非 终结 符号 的 栈 记录 中 。 对 














这 些 属性 求 值 的 代码 通常 使 用 紧 靠 在 A 的 栈 记录 之 上 的 动作 记录 来 
表示 。 实 际 上 ， 从 L 属 性 的 SDD 到 SDT 的 转换 方法 保证 了 动作 记录 
将 紧 靠 在 A 的 上 面 。 
非 终 结 符号 A 的 综合 属性 放 在 一 个 单独 的 综合 记录 中 ， 它 在 栈 中 紧 
靠 在 A 的 记录 之 下 。 


这 个 策略 在 语法 分 析 栈 中 放置 了 多 种 类 型 的 记录 ， 这 些 不 同 的 记录 
类 型 将 被 当 作 ”“ 栈 记录 ”的 子 类 进行 正确 管理 。 在 实践 中 ， 我 们 可 能 把 几 
个 记录 组 合成 一 个 记录 ， 但 是 如 果 要 解释 这 个 方法 的 基本 思想 ， 最 好 还 
是 把 用 于 不 同 目的 的 数据 分 别 存 放 在 不 同 的 记录 中 。 


动作 记录 包含 指 癌 将 被 执行 的 动作 代码 的 指针 。 动 作 也 可 能 出 现在 
综合 记录 中 ， 这 些 动作 通常 把 其 他 记录 中 的 综合 属性 拷贝 到 栈 中 更 低 的 
位 置 上 。 在 这 个 综合 属性 所 在 的 记录 被 弹出 栈 之 后 ， 语 法 分 析 程 序 需要 
在 这 个 较 低 的 位 置 上 找到 该 属性 的 值 。 


我 们 简单 地 看 一 下 LL 语法 分 析 技 术 ， 以 了 解 为 什么 需要 建立 属性 
的 临时 拷贝 。 根 据 4.4.4 节 的 介绍 可 知 ， 一 个 通过 分 析 表 驱动 的 LL 语法 
分 析 器 模拟 了 一 个 最 左 推导 过 程 。 如 果 w 是 至 今 为 止 已 经 匹配 完成 的 输 
入 ， 那 么 栈 中 就 包含 了 一 个 文法 符号 序列 aq， 使 得 Swa ， 其 中 S 是 开始 
符号 。 当 语法 分 析 器 按照 一 个 产生 式 A -,B C 展 开 的 时 候 ， 它 把 栈 顶 的 A 
替换 为 B C。 


假设 非 终 结 符号 C 有 一 个 继承 属性 C.i。 对 于 产生 式 A -,B C， 继 承 属 
性 C.i 可 能 不 仅仅 依赖 于 A 的 继承 属性 ， 还 可 能 依赖 于 B 的 所 有 属性 。 因 
此 ， 我 们 可 能 需要 在 计算 C.i 之 前 完成 对 B 的 处 理 。 因 此 ， 我 们 需要 计算 
C.i 所 需 的 所 有 属性 值 的 临时 拷贝 存放 到 计算 C.i 的 动作 记录 中 。 否 则 ， 
和 
录 一 起 消失 了 。 


因为 基础 SDD 是 L 属 性 的 ， 我 们 可 以 肯定 当 A 位 于 栈 项 时 ，A 的 继承 
属性 的 值 是 可 用 的 。 因 此 当 需 要 把 这 些 值 拷贝 到 对 C 的 继承 属性 求 值 的 
动作 记录 中 时 ， 这 些 值 也 是 可 用 的 。 不 仅 如 此 ， 用 于 存放 A 的 综合 属性 
的 空间 也 不 成 问题 ， 因 为 这 个 空间 位 于 A 的 综合 记录 中 ， 而 这 个 记录 在 
语法 分 析 器 使 用 A ~ B C 进 行 展开 时 还 保持 在 分 析 栈 中 位 于 B 和 C 之 
> 


























当 处 理 B 时 ， 如 果 需 要 ， 我 们 可 以 (通过 栈 中 紧 徘 在 B 之 上 的 一 个 
记录 ) 执行 一 个 动作 ， 将 它 的 继承 属性 拷贝 给 C 使 用 。 在 处 理 完 B 之 
后 ， 如 果 需 要 ，B 的 综合 记录 也 可 以 拷贝 它 的 综合 属性 供 C 使 用 。 关 似 
地 ， 也 可 能 需要 一 些 临 时 变量 来 计算 A 的 综合 属性 的 值 。 这 些 值 可 以 在 
先后 处 理 B 和 C 的 时 候 被 拷贝 到 A 的 综合 记录 中 。 所 有 这 些 属性 的 拷贝 工 
作 能 够 正确 进行 的 原理 是 : 


。 所 有 拷贝 都 发 生 在 对 菏 个 非 终结 符号 的 一 次 展开 时 创建 的 不 同 记 录 
之 间 。 因 此 ， 这 些 记录 中 的 每 一 个 都 知道 其 他 各 个 记录 在 栈 中 离 它 
有 多 远 ， 因 此 可 以 安全 地 把 值 写 到 它 下 面 的 记录 中 。 


下 一 个 例子 说 明了 通过 不 断 地 拷贝 属性 值 ， 在 LL 语法 分 析 过 程 中 
实现 继承 属性 的 方法 。 有 可 能 存在 一 些 捷径 或 者 优化 方法 ， 对 于 那些 只 
把 一 个 属性 值 拷贝 到 另 一 个 属性 值 的 拷贝 规则 而 言 更 是 如 此 。 我 们 要 到 
例 5.24 中 再 说 明 这 个 问题 ， 该 例子 还 演示 了 对 综合 记录 的 处 理 方法 。 


WE 这 个 例子 实现 了 图 5-32 中 的 SDT， 该 SDT 边 扫描 边 为 while 语 名 
人 码 。 这 个 SDT 中 除了 表示 标号 的 哑 属 性 之 外 ， 没 有 综合 属性 。 


图 5-33a 显 示 了 我 们 即将 使 用 while 产 生 式 来 展开 S 的 情况 。 这 里 假设 
我 们 已 经 知道 输入 的 同 前 看 符 写 就 是 while。 栈 顶 的 记录 对 应 于 S， 它 只 
包含 继承 属性 S.next。 我 们 假设 这 个 属性 的 值 为 x。 因 为 我 们 现在 以 目 顶 
同 下 方式 进行 语法 分 析 ， 所 以 按照 惯例 把 栈 顶 显示 在 左边 。 
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stack[top 一 1]-nezt = all; 
print("label", al2); 





top — 3].all = L1; 
top — 3].al2 = L2; 
"label", L1); b) 





图 5-33 ”根据 while 语 名 的 产生 式 扩 展 S 


图 5-33b 显 示 了 我 们 展开 S 之 后 的 情况 。 在 非 终 结 符号 C 和 Sj 之 前 存 
在 动作 记录 ， 它 们 对 应 于 图 5-32 中 的 基础 SDT 的 语义 动作 。C 的 记录 包 
含 了 存放 继承 属性 true 和 false 的 字段 ， 而 $1 的 记录 包含 了 存放 属性 next 的 
字段 。 所 有 的 S 记 录 都 必须 包含 这 个 字段 。 我 们 将 这 些 字段 的 值 显示 
为 ? ， 因 为 我 们 现在 还 不 知道 它们 的 值 。 


接 下 来 ， 语 法 分 析 右 识别 了 输入 中 的 while 和 ““， 并 将 它们 的 记录 
弹出 栈 。 现 在 ， 第 一 个 动作 位 于 栈 顶 ， 因 此 必须 执行 这 个 动作 。 这 个 动 
作 记 录 有 一 个 字段 snext， 该 字段 存放 了 继承 属性 S.next 的 一 个 拷贝 。 当 S$ 
被 弹出 栈 的 时 候 ，S.next 的 值 被 拷贝 到 字段 snext 中 。 在 求 C 的 继承 属性 
值 的 时 候 将 用 到 这 个 字段 。 第 一 个 动作 的 代码 生成 了 L1 和 L2 的 新 值 ， 
我 们 分 别 将 这 两 个 值 假设 为 y 和 z。 下 一 步 是 令 C.true 的 值 等 于 z。 我 们 把 
这 个 赋值 语句 写作 stack [top-1] .true = L2 是 因为 只 有 当 这 个 动作 记录 位 
于 栈 顶 时 这 个 语句 才 会 被 执行 ， 因 此 top-1 指 癌 它 下 面 的 记录 ， 即 C 的 记 
录 。 








第 一 个 动作 记录 将 L1 找 贝 到 第 二 个 动作 记录 的 all 字 上段 中 ， 在 该 处 
它 将 用 于 Sj.next 的 求 值 。 它 也 会 将 L2 找 贝 到 第 二 个 动作 记录 中 的 al2 字 
段 中 ， 第 二 个 动作 需要 这 个 值 来 正确 打印 输出 。 最 后 ， 第 一 个 动作 记录 
将 label y 打 印 到 输出 设备 。 


完成 了 第 一 个 动作 并 将 它 的 记录 弹出 栈 之 后 的 情形 显示 在 图 5-34 
中 。 在 C 的 记录 中 的 继承 属性 值 都 已 经 正确 填写 好 ， 同 时 第 二 个 动作 记 
录 中 的 临时 变量 al1 和 al2 也 已 经 填写 好 。 此 时 C 被 展开 ， 我 们 假设 实现 条 
件 表 达 式 C 的 包含 了 正确 跳 转 到 x 和 z 的 指令 的 代码 已 经 生成 。 当 C 的 记 
人 
Ja 


stack[top — 1].nert = all; 
print("label", al2); 
图 5-34 C0 之 上 的 动作 被 执行 之 后 


当 S1 之 上 的 动作 位 于 栈 顶 时 ， 它 的 代码 设置 Si.next， 并 打印 出 
label z。 上 述 工作 完成 之 后 ，S1 的 记录 成 为 栈 项 。 随 着 S1 补 展开， 假设 
它 正 确 地 生成 了 S51 的 代码 。 不 窒 S1 古 什么 类 型 的 语句 ， 生 成 的 代码 正确 
地 实现 了 这 个 语句 ， 随 后 跳 转 到 y。 


现在 让 我 们 考虑 同样 的 while 语 句 ， 但 是 翻译 方法 把 输出 S.code 

9 一 个 综合 属性 ， 而 不 是 通过 边 扫 搬 边 处 理 的 方式 生成 。 记 住 下 面 的 

不 变 式 ， 或 者 说 归纳 假设 ， 有 助 于 理解 接 下 来 的 解释 。 我 们 假设 这 些 假 
设 适 用 于 每 个 非 终结 符号 : 


。 每 个 具有 代码 的 非 终结 符号 都 把 它 的 〈 字 符 串 形式 的 ) 代码 存放 在 
栈 中 该 符号 的 记录 下 方 的 综合 记录 中 。 


假设 这 个 结论 为 真 ， 我 们 处 理 while 产 生 式 时 ， 将 使 它 在 处 理 完成 
后 仍然 成 立 ， 成 为 一 个 不 变 式 。 


图 5-35a 显 示 了 使 用 while 语 句 的 产生 式 展 开 S 之 前 的 情形 。 我 们 在 栈 
项 看 到 的 是 S 的 记录 。 和 例 5.23 中 一 样 ， 它 有 一 个 存放 继承 属性 S.next 的 
字段 。 紧 菲 在 这 个 记录 之 下 是 S 的 本 次 出 现 的 综合 记录 ， 它 有 一 个 存放 
S.code 的 字段 。 每 个 的 综合 记录 部 包含 这 个 字段 。 我 们 还 显示 了 其 他 


























- 些 用 于 局 部 存储 和 动作 的 字段 ， 因 为 图 5-28 中 while 产 生 式 的 SDT 实 际 
上 是 一 个 更 大 的 SDT 的 一 部 分 。 


我 们 对 S 的 展开 是 基于 图 5-28 中 的 SDT 的 ， 展 开 的 情形 显示 在 图 5- 
35b 中 。 作 为 一 种 捷径 ， 我 们 假设 在 展开 过 程 中 继承 属性 S.next 被 直接 赋 
给 C.false， 而 不 是 先 放 到 第 一 个 动作 中 ， 然 后 再 拷贝 到 C 的 记录 中 。 





























top 
5 Synthesize 
S.code a) 
?ez 三 Z |lcode=? 
actions 
top 
2 Synthesize Synthesize 
hil Act 
a C.code S.code 
区 false=? ||lcode=? nezt =? code =? 
: data 











EE 





d= 


stack[ltop 一 3].Cceode = code; 
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stack[ltop — 1].true = L2; 





stackltop 一 5].!1 = L1; 
stack[top — 5].12 = L2; b) 
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stack[top — 4].nezxt 一 工 1; 
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图 5-35 ” 栈 中 构造 的 具有 综合 属性 的 S 的 扩展 


我 们 看 一 下 各 个 记录 在 变 成 栈 顶 的 时 候 会 做 哪些 事情 。 首 
先 ，while 记 录 使 得 词法 单元 while 和 输入 匹配 。 这 是 一 定 会 匹配 的 ， 否 
则 我 们 就 不 会 用 这 个 产生 式 来 展开 S$。 在 while 和 “被 弹出 栈 之 后 ， 执 行 
动作 记录 中 的 代码 。 它 生成 了 L1 和 1L2 的 值 ， 我 们 通过 捷径 直接 把 它们 
找 贝 到 需要 它们 的 继承 属性 中 ， 即 Sij.next 和 C.true 中 。 这 个 动作 的 最 后 
两 个 步 又 把 L1 和 L2 找 贝 到 被 称 为 “Synthesize Si.code” 的 记录 中 。 


Si 的 综合 记录 有 两 个 任务 : 它 不 仅仅 要 保存 综合 属性 Sij.code， 它 还 
要 作为 一 个 动作 记录 对 整个 产生 式 S~ while (C) S; 的 属性 求 值 。 特 别 
是 ， 当 它 到 达 栈 顶 时 ， 它 将 计算 综合 属性 S.code， 并 将 这 个 值 放 到 产生 
式 头 $ 的 综合 记录 中 。 


当 C 成 为 栈 项 的 时 候 ， 它 的 两 个 继承 属性 都 已 经 计算 完成 。 根 据 上 
面 给 出 的 归纳 假设 ， 我 们 假设 它 正 确 地 生成 了 代码 ， 该 代码 执行 了 它 的 





条 件 判断 并 跳 转 到 正确 的 标号 。 我 们 同时 假设 在 展开 C 时 执行 的 动作 正 
确 地 把 这 个 代码 放 在 了 栈 中 下 面 的 记录 中 ， 作 为 综合 属性 C.code 的 值 。 


在 C 被 弹出 栈 后 ，C.code 的 综合 记录 成 为 栈 项 。 它 的 代码 要 在 
S1.code 的 综合 记录 中 使 用 ， 因 为 我 们 要 在 那里 把 所 有 的 代码 元 素 连 接 起 
来 得 到 S.code。 因 此 ，C.code 的 综合 记录 中 有 一 个 语义 动作 把 C.code 找 
贝 到 Si.code 的 综合 记录 中 。 完 成 上 述 工作 之 后 ， 词 法 单元 ) 的 记录 到 达 
栈 顶 ， 使 得 语法 分 析 器 检查 输入 中 的 )。 假 设 这 个 测试 成 功 ，S1 的 记录 
变 成 栈 顶 。 根 据 我 们 的 归纳 假设 ， 这 个 非 终 结 人 符号 被 展开 。 这 次 展开 的 
最 终 效 果 是 它 的 代码 被 正确 构造 出 来 ， 并 被 放 到 $1 的 综合 记录 中 存放 
code 的 字段 中 。 


现在 ，Si 的 综合 记录 的 所 有 数据 字段 都 已 经 填充 完毕 ， 因 此 当 它 变 
成 栈 顶 时 ， 该 记录 中 的 动作 就 可 以 被 执行 。 这 个 动作 使 得 标号 和 来 自 
C.code 和 Si.code 的 代码 按照 正确 的 顺序 被 连接 到 一 起 。 得 到 的 串 放 在 栈 
中 下 面 的 记录 中 ， 也 就 是 $ 的 综合 记录 中 。 我 们 现在 已 经 正确 地 计算 出 
了 S.code， 并 且 当 S$ 的 综合 记录 变 成 栈 顶 时 ， 该 代码 可 以 被 放置 到 栈 中 
更 低层 的 另 一 个 记录 中 ， 在 那里 它 最 终 会 被 组 装 到 一 个 更 大 的 代码 串 
中 ， 用 于 实现 了 包含 这 个 S 的 更 大 的 程序 元 素 。 





我 们 可 以 处 理 LR 文 法 上 的 工 属性 SDD 四 ? 


在 5.4.1 节 中 ， 我 们 看 到 在 LR 文法 上 的 每 个 S 属 性 SDD 都 可 以 在 自 
底 向 上 语法 分 析 过 程 中 实现 。 根 据 5.3.5 节 ，LL 文 法 上 的 每 个 LL 属性 都 
可 以 在 自 顶 向 下 语法 分 析 中 实现 。 因 为 LL 文法 类 是 LR 文法 类 的 一 个 
真子 集 ， 并 有 旦 S 属 性 SDD 类 是 L 属 性 SDD 类 的 一 个 真子 集 ， 那 么 我 们 
能 否 以 自 底 向 上 的 方式 处 理 每 个 LR 文法 和 每 个 L 属 性 SDD 呢 ? 


如 下 面 的 直观 论述 指出 的 ， 我 们 不 能 这 么 做 。 假 设 我 们 有 一 个 
LR 文 法 的 产生 式 A~BC， 并 且 有 一 个 继承 属性 B.i， 它 依赖 于 A 的 继 
承 属 性 。 当 我 们 规约 到 B 的 时 候 ， 我 们 还 没有 看 到 由 C 生 成 的 输入 ， 
因此 不 能 确定 会 扫描 到 产生 式 A ,BC 的 体 。 因 此 ， 我 们 在 此 时 还 不 能 
计算 B.i， 因 为 我 们 不 能 确定 是 否 使 用 和 这 个 产生 式 相 关联 的 规则 。 


也 许 我 们 可 以 等 到 已 经 归 约 得 到 C， 并 且 知 道 必 须 把 BC 归 约 到 A 





时 才 进 行 计算 。 然 而 ， 即 使 到 那个 时 候 ， 我 们 仍然 不 知道 A 的 继承 属 
性 ， 因 为 即使 在 归 约 之 后 ， 我 们 仍然 不 能 确定 包含 这 个 A 的 是 哪个 产 
生 陈 的 体 。 我 们 可 以 说 这 个 诀 定 也 应 该 推迟 ， 因 此 也 需要 将 B.i 的 计 
算 进 一 步 推迟 。 如 果 我 们 继续 这 样 推迟 ， 我 们 很 快 会 发 现 必 须 把 所 有 
的 决定 推迟 到 对 整个 输入 的 语法 分 析 完 成 之 后 再 进行 。 实 质 上 ， 这 就 
是 “ 先 构 造 语法 分 析 树 ， 再 执行 翻译 ”的 策略 。 





5.5.4 工 属 性 的 SDD 的 自 底 向 上 语法 分 析 








我 们 可 以 使 用 自 底 向 上 的 方法 来 完成 任何 可 以 用 自 顶 向 下 方式 完成 
的 翻译 过 程 。 更 准确 地 说 ， 给 定 一 个 以 LL 文法 为 基础 的 L 属 性 SDD， 我 
们 可 以 修改 这 个 文法 ， 并 在 LR 语法 分 析 过 程 中 计算 这 个 新 文法 之 上 的 
SDD。 这 个 “技巧 ”包括 三 个 部 分 : 

1) 以 按照 5.4.5 节 中 的 方法 构造 得 到 的 SDT 为 起 点 。 这 样 的 SDT 在 


各 个 非 终结 符号 之 前 放置 语义 动作 来 计算 它 的 继承 属性 ， 并 且 在 产生 式 
后 端 放置 一 个 动作 来 计算 综合 属性 。 

2) 对 每 个 内 构 的 语义 动作 ， 同 这 个 文法 中 引入 一 个 标记 非 终 结 符 
号 来 痊 换 它 。 每 个 这 样 的 位 置 都 有 一 个 不 同 的 标记 ， 并 且 对 于 任意 一 个 
标记 M 都 有 一 个 产生 式 M- E 。 


3) 如 果 标 记 非 终结 符 写 M 在 某 个 产生 式 A ,a{a}B 中 蔡 换 了 语义 动 
作 a， 对 a 进行 修改 得 到 a*?， 并 有 旦 将 ?关联 到 M -, EeE 上 。 这 个 动作 a? 


QD 将 动作 a 需要 的 A 或 a 中 符号 的 任何 属性 作为 M 的 继承 属性 进行 找 














贝 





名 按照 a 中 的 方法 计算 各 个 属性 ， 但 是 将 计算 得 到 的 这 些 属性 作为 
M 的 综合 属性 。 


这 个 变换 看 起 来 是 非法 的 ， 因 为 通常 和 产生 式 M-~ E 相 关 的 动作 将 
不 得 不 访问 茶 些 没有 出 现在 这 个 产生 式 中 的 文法 符号 的 属性 。 然 而 ， 我 
们 将 在 LR 语 法 分 析 栈 上 实现 各 个 语义 动作 。 因 此 必要 的 属性 总 是 可 用 
的 ， 它 们 位 于 栈 顶 之 下 的 已 知 位 置 上 。 








人 假设 一 个 LE 文法 中 存在 一 个 产生 式 A“B C， 而 继承 属性 B.j 是 
继承 属性 A.i 按 照 某 个 公式 B.i=f (A.i) 计算 得 到 的 。 也 就 是 说 ， 我 
们 关心 的 SDT 片 段 是 


A {Bi=f(Ai);}BOC 


我 们 引入 标记 M，M 有 继承 属性 M.i 和 综合 属性 M.s。 前 者 是 A.i 的 一 
个 拷贝 ， 而 后 者 将 成 为 B.i。 这 个 SDT 将 被 写作 


A— MBCOC 
M = {Mi= Ai; M.s = f(M.i);} 


请 注意 ，M 的 规则 中 不 可 以 使 用 A.i， 但 是 实际 上 我 们 将 设法 安排 分 
析 栈 ， 使 得 如 果 即 将 进行 一 个 到 A 的 归 约 ， 那 么 A 的 每 个 继承 属性 都 将 
出 现在 栈 中 执行 这 个 归 约 的 位 置 下 方 ， 从 该 处 就 可 以 读 到 这 些 继承 属 
性 。 因 此 ， 妆 我 们 将 Ee 归 约 为 M 时 ， 我 们 直接 在 它 的 下 方 找到 A.i， 在 那 
里 读 取 到 它 的 值 。 另 外 ，M.s 的 值 和 M 一 起 存放 在 栈 中 ， 它 实际 上 是 
B.i， 以 后 在 进行 到 B 的 归 约 时 可 以 在 下 方 找到 这 个 值 。 





为 什么 标记 能 够 正确 工作 ? 


标记 是 只 能 推导 出 e 的 非 终 结 符号 ， 每 个 标记 在 所 有 产生 式 体 中 
只 出 现 一 次 。 我 们 将 正式 证 明 如 果 一 个 文法 是 LL 的 ， 那 么 标记 非 终 
结 符号 可 以 被 插入 到 产生 式 体 中 的 任何 位 置 ， 并 且 结 果 文 法 是 LR 
的 。 如 果 文 法 是 LL 的 ， 那 么 我 们 只 需要 看 输入 符 写 串 w 的 第 一 个 符号 








《如果 w 为 空 则 是 下 一 个 符号 ) ， 束 可 以 确定 w 是 侍 可 以 从 A 开始 ， 
经 过 一 个 以 产生 式 A -~ oa 开头 的 推导 序列 得 到 。 因 此 ， 如 果 我 们 用 目 
底 问 上 的 方式 对 w 进 行 语法 分 机 ， 那 么 只 要 w 的 开头 出 现在 输入 中 ， 
我 们 就 可 以 确定 w 的 一 个 前 缀 首先 必须 被 归 约 成 为 ck， 然后 再 归 约 到 
S。 特 别 是 ， 如 果 我 们 在 a 的 任何 位 置 插 入 标记 ， 相 应 的 LR 状态 将 隐 
含 地 表明 这 个 标记 必定 存在 ， 并 将 在 输入 的 正确 位 置 上 把 Ee 归 约 为 标 
1 








本 例 中 我 们 把 图 5-28 的 SDT 修 改 成 基于 经 过 修改 的 LR 文法 的 
SDT， 新 的 SDT 可 以 和 LR 语 法 分 析 器 一 起 完成 翻译 。 我 们 在 C 之 前 引入 
标记 M， 在 Si 之 前 引入 标记 N， 因 此 基础 文法 变 成 





9 — while(MC)N9 
M 一 
N 一 E€ 


在 我 们 讨论 标记 M 及 N 的 关联 动作 之 前 ， 先 给 出 有 关 属 性 存放 位 置 
的 “归纳 假设 ”。 


1) 在 while 产 生 式 的 整个 产生 式 体 之 下 〔 束 是 说 在 栈 中 的 while 之 
下 ) 将 是 继承 属性 S.next。 我 们 可 能 不 知道 这 个 栈 记 录 与 哪个 非 终 结 符 
写 或 语法 分 析 右 状态 相关 ， 但 是 我 们 肯定 该 记录 有 一 个 字段 存放 了 
S.next。 这 个 字段 位 于 该 记录 中 的 固定 位 置 上 ， 并 且 在 我 们 知道 $ 推 导出 
什么 短语 之 前 就 已 经 计算 得 到 了 S.next。 


2) 继承 属性 C.true 和 C.false 将 紧 靠 在 C 的 栈 记录 的 下 方 。 因 为 假设 
这 个 文法 是 LE 的 ， 输 入 中 出 现 的 while 告 诉 我 们 while 产 生 式 是 唯一 可 能 
锌 识别 的 产生 式 ， 因 此 我 们 可 以 肯定 M 将 出 现在 栈 中 紧 靠 C 的 下 方 ， 而 
M 的 记录 将 保存 C 的 这 些 继承 属性 。 


3) 类 似 地 ， 继 承 属性 Sj.next 必 定 出 现在 栈 中 紧 靠 $1 的 下 方 ， 因 此 
我 们 把 该 属性 放 在 N 的 记录 中 。 


4) 综合 属性 C.code 将 出 现在 C 的 记录 中 。 我 们 期 望 在 实践 中 这 个 记 
录 中 出 现 的 是 一 个 指向 这 个 字符 串 (对 象 》 的 指针 ， 而 该 字符 串 本 里 位 
于 栈 外 。 当 有 一 个 属性 的 值 是 很 长 的 字符 串 时 ， 我 们 总 是 这 样 处 理 。 


5) 类 似 地 ， 综 合 属 性 Si1.code 将 出 现在 $1 的 记录 中 。 


现在 我 们 跟踪 一 个 while 语 句 的 语法 分 析 过 程 。 假 设 一 个 保存 S.next 
的 记录 出 现在 栈 顶 ， 并 且 下 一 个 输入 是 终结 符 写 while。 我 们 把 这 个 终 
结 符号 移入 栈 中 。 此 时 识别 出 的 产生 式 肯 定 是 while 产 生 式 ， 因 此 LR 语 
法 分 析 器 可 以 移入 “(” 并 确定 下 一 步 把 Ee 归 约 为 M。 此 时 的 栈 显 示 在 图 
5-36 中 。 我 们 同时 还 在 该 图 中 显示 了 和 M 的 归 约 相关 联 的 动作 。 我 们 创 





建 出 L1 和 EL2 的 值 ， 它 们 被 存放 在 M 的 记录 的 域 中 。 同 处 这 个 记录 还 有 
C.true 和 C.false 的 域 。 这 些 属性 必定 在 这 个 记录 的 第 二 和 第 三 个 域 中 。 
这 是 为 了 和 可 能 在 不 同上 下 文中 出 现 于 C 之 下 ， 且 需要 为 C 提 供 这 些 属 
性 的 其 他 栈 记录 保持 一 致 。 这 个 动作 最 后 把 两 个 值 赋 给 C.true 和 
C.false。 其 中 的 第 一 个 值 来 自 于 刚刚 生成 的 L2， 男 一 个 则 从 栈 下 方 存放 
S.next 的 地 方 获取 。 











top 
?7 [vael CJ x | 在 将 e 归 约 到 M 的 过 程 
人 中 执行 的 代码 。 
0 
| 已 | = new(); 
C.true = L2; 


OC.false = stackltop — 3].next; 
图 5-36 在 将 EE 归 约 为 M 之 后 的 LR 语法 分 析 栈 
我 们 假设 后 面 的 输入 被 正确 地 归 约 为 C。 因 此 ， 综 合 属性 C.code 存 
放 在 C 的 记录 中 。 这 一 次 对 栈 的 改变 显示 在 图 5-37 中 。 该 图 还 显示 了 接 
下 来 将 被 放 到 栈 中 的 多 个 记录 ， 它 们 将 被 放 到 C 的 记录 之 上 。 








top 





图 5-37 ”即将 把 while 产 生 式 的 体 归 约 为 S$ 之 前 的 栈 


继续 识别 while 语 句 ， 语 法 分 析 峰 下 一 步 将 在 输入 中 发 现 *“) ”， 把 它 放 在 
该 符号 自己 的 记录 中 ， 并 压 入 栈 中 。 因 为 文法 是 LL 的 ， 因 此 语法 分 析 
器 在 该 点 上 已 经 知道 它 在 处 理 一 个 while 语 句 。 语 法 分 析 器 将 把 Ee 归 约 
为 N。 和 N 相 关联 的 唯一 数据 是 继承 属性 S1.next。 请 注意 ， 需 要 将 这 个 
属性 存放 在 此 记录 中 的 原因 是 这 个 记录 将 恰好 位 于 Si 的 记录 之 下 。 计 算 
Si.next 的 值 的 代码 是 











91.mnezt = stock[top — 3].L1; 


这 个 动作 从 N 之 下 三 个 记录 的 地 方 获取 了 LI 的 值 。 当 这 个 代码 执行 
的 时 候 ，N 的 记录 位 于 栈 顶 。 


接 下 来 ， 语 法 分 析 霹 将 其 余 输 入 的 某 个 前 绥 归 约 成 为 S。 我 们 一 直 
把 它 称 为 Si;， 以 便 和 产生 式 头 的 S 区 分 开 。S$i.code 的 值 计 算 完 成 并 放 在 
Si 的 栈 记录 中 。 这 个 步骤 对 应 于 图 5-37 所 示 的 情形 。 


此 时 ， 语 法 分 析 器 将 把 从 while 到 Si 的 全 部 内 容 归 约 为 S。 在 这 一 次 
归 约 中 ， 执 行 的 代码 是 : 





tempCode = label || stack[top — 4].L1 || stack[ltop 一 3].code || 
label || stack[top — 4].L2 || stack[top|.code; 

top = top 一 6; 

stack[topj.code = tempCode; 


也 就 是 说 ， 我 们 在 变量 tempCode 中 构造 出 S.code 的 值 。 该 代码 也 是 由 两 
个 标号 L1 和 L2、C 的 代码 和 S1 的 代码 组 成 。 这 个 栈 执 行 了 一 些 弹 出 操 
作 ， 因 此 S 出 现在 while 原 来 出 现 的 地 方 。S 的 代码 值 存放 在 该 记录 的 
code 字 上段 中 。 它 在 那里 被 解释 为 综合 属性 S.code。 请 注意 ， 我 们 在 这 次 
讨论 中 没有 显示 对 LR 状态 的 操作 ， 实 际 上 这 些 状 态 必 须 出 现在 栈 中 ， 
其 所 在 的 字段 就 是 存放 文法 符号 的 字段 。 











5.5.5 5.5 节 的 练习 
练习 5.5.1: 按照 5.5.1 节 的 风格 ， 将 练习 5.4.4 中 得 到 的 每 个 SDD 实 现 
为 递归 下 降 的 语法 分 析 器 。 


练习 5.5.2: 按照 5.5.2 节 的 风格 ， 将 练习 5.4.4 中 得 到 的 每 个 SDD 实 现 
为 递归 下 降 的 语法 分 析 器 。 

练习 5.5.3: 按照 5.5.3 节 的 风格 ， 将 练习 5.4.4 中 得 到 的 每 个 SDD 和 一 
个 LL 语法 分 析 器 一 起 实现 。 它 们 应 该 边 扫 描 输 入 边 生 成 代码 。 


练习 5.5.4: 按照 5.5.3 节 的 风格 ， 将 练习 5.4.4 中 得 到 的 每 个 SDD 和 一 
个 LL 语法 分 析 器 一 起 实现 ， 但 是 代码 (或 者 指向 代码 的 指针 〉 存放 在 


栈 中 。 


练习 5.5.5: 按照 5.5.4 节 的 风格 ， 将 练习 5.4.4 中 得 到 的 每 个 SDD 和 一 
个 LR 语 法 分 析 器 一 起 实现 。 


练习 5.5.6: 按照 5.5.1 节 的 风格 实现 练习 5.2.4 中 得 到 的 SDD 。 按 照 
5.5.2 节 的 风格 得 到 的 实现 和 这 个 实现 相 比 有 什么 不 同 吗 ? 


5.6 第 5 章 总 结 


继承 属性 和 综合 属性 : 语法 制导 的 定义 可 以 使 用 的 两 种 属性 。 一 棵 
语法 分 析 树 结 点 上 的 综合 属性 根据 该 结 点 的 子 结 点 的 属性 计算 得 
到 。 一 个 结 点 上 的 继承 属性 根据 它 的 父 结 点 和 /或 兄弟 结 点 的 属性 
计算 得 到 。 

依赖 图 : 给 定 一 棵 语法 分 析 树 和 一 个 SDD， 我 们 在 各 个 语法 分 析 树 
结 点 所 关联 的 属性 实例 之 间 画 上 边 ， 以 指明 位 于 边 的 头 部 的 属性 值 
要 根据 位 于 边 的 尾部 的 属性 值 计 算得 到 。 

循环 定义 : 在 一 个 有 问题 的 SDD 中 ， 我 们 发 现存 在 一 些 语法 分 析 
树 ， 无 法 找到 一 个 顺序 来 计算 所 有 结 点 上 的 所 有 属性 的 值 。 这 些 语 
法 分 析 树 关联 的 依赖 图 中 存在 环 。 确 定 一 个 SDD 是 否 存 在 这 种 带 环 
的 依赖 图 是 非常 困难 的 。 

S 属 性 定义 : 在 一 个 S 属 性 的 SDD 中 ， 所 有 的 属性 都 是 综合 的 。 

L 属 性 定义 : 在 一 个 LL 属性 的 SDD 中 ， 属 性 可 能 是 继承 的 ， 也 可 能 是 
综合 的 。 然 而 ， 一 个 语法 分 析 树 结 点 上 的 继承 属性 只 能 依赖 于 它 的 
父 结 点 的 继承 属性 和 位 于 它 左边 的 兄弟 结 点 的 (任意 ) 属性 。 
抽象 语法 树 : 一 棵 抽象 语法 树 中 的 每 个 结 点 代表 一 个 构造 ， 某 个 结 
点 的 子 结 点 表示 该 结 点 所 对 应 的 构造 的 有 意义 的 组 成 部 分 。 

实现 S 属 性 的 SDD: 一 个 S 属 性 定义 可 以 通过 一 个 所 有 动作 都 在 产生 
式 尾部 的 SDT (后 级 SDT)〉 来 实现 。 这 些 动 作 通 过 产生 式 体 中 的 各 
个 符号 的 综合 属性 来 计算 产生 式 头 的 综合 属性 。 如 果 基 础 文法 是 
LR 的 ， 那 么 这 个 SDT 可 以 在 一 个 LR 语 法 分 析 器 的 栈 上 实现 。 

从 SDT 中 消除 左 递归 : 如 果 一 个 SDT 只 有 副作用 〈( 即 不 计算 属性 
值 ) ， 那 么 消除 文法 左 递归 的 标准 方法 允许 我 们 把 语义 动作 当 作 终 
结 符 号 移动 到 新 文法 中 去 。 在 计算 属性 时 ， 如 果 这 个 SDT 是 后 绥 
SDT， 那 么 我 们 仍然 能 够 消除 左 递归 。 

用 递归 下 降 语 法 分 析 实 现 L 属 性 的 SDD: 如 果 我 们 有 一 个 工 属性 定 
义 ， 且 其 基础 文法 可 以 用 自 顶 同 下 的 方法 进行 语法 分 析 ， 我 们 就 可 
以 构造 出 一 个 不 带 回 溯 的 递归 下 降 语法 分 析 器 来 实现 这 个 翻译 。 继 
承 属性 变 成 了 非 终结 符号 对 应 的 函数 的 参数 ， 而 综合 属性 由 该 函数 
返回 。 

实现 LL 文 法 之 上 的 L 属 性 的 SDD: 每 个 以 LL 文法 为 基础 文法 的 L 属 性 
定义 可 以 在 语法 分 析 过 程 中 实现 。 用 于 存放 一 个 非 终 结 符号 的 综合 
属性 的 记录 被 放 在 栈 中 这 个 非 终结 符号 之 下 ， 而 一 个 非 终 结 符号 的 














继承 属性 和 这 个 非 终结 符号 存放 在 一 起 。 栈 中 还 放置 了 动作 记录 ， 
以 便 在 适当 的 时 候 计 算 属 性 值 。 

以 自 底 向 上 的 方式 实现 一 个 在 LL 文法 之 上 的 L 属 性 SDD: 一 个 以 LL 
文法 为 基础 文法 的 L 属 性 定义 可 以 转换 成 一 个 以 LR 文法 为 基础 文法 
的 翻译 方案 ， 且 这 个 翻译 可 以 和 自 底 向 上 的 语法 分 析 过 程 一 起 执 
行 。 文 法 的 转换 过 程 中 引入 了 “标记 ” 非 终 结 符 写 。 这 些 符号 出 现在 
自 底 同上 语法 分 析 栈 中 ， 并 保存 了 栈 中 位 于 它 上 方 的 非 终 结 符号 的 


继承 属性 。 在 栈 中 ， 综 合 属性 和 它 的 非 终结 符号 放 在 一 起 。 
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我 们 再 次 假设 使 


第 6 章 ” 中 间 代 码 生成 


在 编译 器 的 分 析 - 毕 合 模型 中 ， 前 端 对 源 程 序 进行 分 析 并 产生 中 间 
表示 ， 后 端 在 此 基础 上 生成 目标 代码 。 理 想 情 况 下 ， 和 源 语言 相关 的 细 
节 在 前 端 分 析 中 处 理 ， 而 关于 目标 机 器 的 细节 则 在 后 端 处 理 。 基 于 一 个 
适当 定义 的 中 间 表 示 形 式 ， 可 以 把 针对 源 语 言 i 的 前 闫 和 针对 目标 机 顺 j 
的 后 问 组 合 起 来 ， 构 造 得 到 源 语言 在 目标 机 器 j 上 的 一 个 编译 器 。 这 种 
创建 编译 器 组 合 的 方法 可 以 大 大 减少 工作 量 : 只 要 写 出 m 种 前 端 和 n 种 
后 端 处 理 程序 ， 就 可 以 得 到 mxn 种 编译 程序 。 


本 章 的 内 容 涉及 中 间 代 码 表 示 、 静 态 类 型 检查 和 中 间 代 码 生成 。 为 
简单 起 见 ， 我 们 假设 一 个 编译 程序 的 前 端 处 理 按照 图 6-1 所 示 方 式 进行 
组 织 ， 顺 序 地 进行 语法 分 析 、 静 态 检查 和 中 间 代 人 码 生 成 。 有 时 候 这 几 个 
过 程 也 可 以 组 合 起 来 ， 在 语法 分 析 中 一 并 完成 。 我 们 将 使 用 第 2 章 和 第 5 
草 中 的 语法 制导 定义 来 描述 类 型 检查 和 翻译 过 程 。 大 部 分 的 翻译 方案 可 
以 基于 第 5 章 中 给 出 的 自 顶 向 下 或 目 底 同 上 的 语法 分 析 拉 术 来 实现 。 所 
有 的 方案 都 可 以 通过 生成 并 过 历 抽象 语法 树 来 实现 。 


























图 6-1 一 个 编译 器 前 端的 逻辑 结构 


静态 检查 包括 类 型 检查 (type checking) ， 类 型 检查 保证 运算 符 被 





应 用 到 兼容 的 运算 分 量 。 毅 态 检查 还 包括 在 语法 分 析 之 后 进行 的 所 有 语 
法 检查 。 例 如 ， 静 态 检查 保证 了 C 语 言 中 的 一 条 break 指 令 必 然 位 于 一 个 
while/for/switch 语 句 之 内 。 如 果 不 存 在 这 样 的 语句 ， 静 态 检 查 将 报告 一 
个 错误 。 


本 章 介 绍 的 方法 可 以 用 于 多 种 中 间 表 示 ， 包 括 抽 象 语 法 树 和 三 地 址 
代码 。 这 两 种 中 间 表 示 方 法 都 在 2.8 节 中 介绍 过 。 之 所 以 名 为 “三 地 址 代 
码 ”， 是 因为 这 些 指令 的 一 般 形 式 x=y op z 具 有 三 个 地 址 : 两 个 运算 分 量 
y 和 z， 一 个 结果 变量 x。 











在 将 给 定 源 语言 的 一 个 程序 翻译 成 特定 的 目标 机 器 代码 的 过 程 中 ， 
一 个 编译 器 可 能 构造 出 一 系列 中 间 表 示 ， 如 图 6-2 所 示 。 高 层 的 表示 接 
近 于 源 语言 ， 而 低层 的 表示 接近 于 目标 机 器 。 语 法 树 是 高 层 的 表示 ， 它 
刻画 了 源 程序 的 自然 的 层次 性 结构 ， 并 且 适 用 于 静态 类 型 检查 这 样 的 处 
理 。 











高 层 中 低层 中 
源 程序 一 > 间 表 示 一 一 .… 一 一 则 洒 注 一 > pnpn 
形式 形式 3. 


图 6-2 编译 器 可 能 使 用 一 系列 的 中 间 表 示 


低层 的 表示 形式 适用 于 机 器 相关 的 处 理 任务 ， 比 如 寄存 器 分 配 、 指 
令 选择 等 。 通 过 选择 不 同 的 运算 符 ， 三 地 址 代码 既 可 以 是 高 层 的 表示 方 
式 ， 也 可 以 是 低层 的 表示 方式 。 在 6.2.3 节 将 看 到 ， 对 表达 式 而 言 ， 语 法 
树 和 三 地 址 代码 只 是 在 表面 上 有 所 不 同 。 对 于 循环 语句 ， 语 法 树 表示 了 
语句 的 各 个 组 成 部 分 ， 而 三 地 址 代码 包含 标号 和 跳 转 指 令 ， 用 来 表示 目 
标语 言 的 控制 流 。 


不 同 的 编译 器 对 中 间 表 示 的 选择 和 设计 各 有 不 同 。 中 间 表 示 可 以 是 
一 种 真正 的 语言 ， 也 可 以 由 编译 器 的 各 个 处 理 阶 段 共 至 的 多 个 内 部 数据 
结构 组 成 。C 语 言 是 一 种 程序 设计 语言 。 它 具有 很 好 的 灵活 性 和 通用 
性 ， 可 以 很 方便 地 把 C 程 序 编译 成 蜗 效 的 机 器 代码 ， 并 且 有 很 多 C 的 编 
译 器 可用， 因此 C 语 言 也 常常 被 用 作 中 间 表 示 。 早 期 的 C++ 编 译 占 的 前 
端 生成 C 代 码 ， 而 把 C 编 译 器 作为 其 后 端 。 














6.1 语法 树 的 变 体 


语法 树 中 的 各 个 结 点 代表 了 源 程 序 中 的 构造 ， 一 个 结 点 的 所 有 子 结 
点 有 反映 了 该 结 点 对 应 构造 的 有 意义 的 组 成 成 分 。 为 表达 式 构建 的 无 环 有 
同 图 (Directed Acyclic Graph， 以 后 简称 DAG) 指出 了 表达 式 中 的 公共 
子 表达 式 〈 多 次 出 现 的 子 表达 式 ) 。 在 本 节 我 们 将 看 到 ， 可 以 用 构造 语 
法 树 的 技术 去 构造 DAG。 





6.1.1 表达 式 的 有 问 无 环 图 


和 表达 式 的 语法 树 类 似 ， 一 个 DAG 的 叶子 结 点 对 应 于 原子 运算 分 
量 ， 而 内 部 结 皮 对 应 于 运算 符 。 与 语法 树 不 同 的 是 ， 如 果 DAG 中 的 一 个 
结 点 N 表 示 一 个 公共 子 表达 式 ， 则 N 可 能 有 多 个 父 结 点 。 在 语法 树 中 ， 
公共 子 表达 式 每 出 现 一 次 ， 代 表 该 公共 子 表达 式 的 子 树 就 会 被 复制 一 
次 。 因 此 ，DAG 不 仅 更 简洁 地 表示 了 表达 式 ， 而 且 可 以 为 最 终生 成 表达 
式 的 高 效 代码 提供 重要 的 信息 。 


[区 列 图 6-3 给 出 了 下 面 的 表达 式 的 DAG 


a+a* (b-c)+(b-c)*d 





ae 
(A 
A 
x 


图 6-3 表达 式 ata* (b-c) + (b-c) *d 的 DAG 


叶子 结 点 a 在 表达 式 中 出 现 了 两 次 ， 因 此 a 有 两 个 父 结 点 。 值 得 注意 





的 是 ， 结 点 “-” 代 表 公 共 子 表达 式 b-c 的 两 次 出 现 。 该 结 点 同样 有 两 个 父 
结 点 ， 表 明 该 子 表达 式 在 子 表 达 式 a* (b-c) 和 (b-c) *d 中 两 次 被 使 用 。 
尽管 b 和 和 c 在 整个 表达 式 中 出 现 了 两 次 ， 但 它们 对 应 的 结 点 只 有 一 个 父 结 
点 ， 因 为 对 它们 的 使 用 都 出 现在 同样 的 公共 于 表达 式 b-c 中 。 


图 6-4 给 出 的 SDD (语法 制导 定义 〉 既 可 以 用 来 构造 语法 树 ， 也 可 
以 用 来 构造 DAG。 它 在 例 5.11 中 曾 用 于 构造 语法 树 。 在 那里 ， 函 数 Leaf 
和 Node 每 次 被 调用 都 会 构造 出 一 个 新 结 点 。 要 构造 得 到 DAG， 这 些 也 
数 就 要 在 每 次 构造 新 结 点 之 前 首先 检查 是 否 已 存在 这 样 的 结 点 。 如 果 存 
在 一 个 已 被 创建 的 结 点 ， 就 返回 这 个 已 有 的 结 点 。 例 如 ， 在 构造 一 个 新 
结 点 Node (op，left，right) 之 前 ， 我 们 首先 检查 是 否 已 存在 一 个 结 
上 点， 该 结 点 的 标号 为 op， 且 其 两 个 子 结 点 为 left 和 right。 如 果 存 在 这 样 
的 结 点 ，Node 函数 返回 这 个 已 存在 的 结 点 ， 否 则 它 创建 一 个 新 结 点 。 





























语义 规则 
E.node = new Nodel(' 十 Ei.node, T.node) 
E.node = new Node(’—', Ei.node, T.node) 
E.node = 7T'.node 
T.node = new Node(’*',T].node, .node) 
7T'.node = E.node 
T'.node = new Leaf (id,id.entry) 





T.node = new Leaf (num, num.val) 








图 6-4 生成 语法 树 或 DAG 的 语法 制导 定义 
图 6-5 给 出 了 构造 图 6-3 所 示 DAG 的 各 个 步 又。 如 上 所 述 ， 函 数 
N 


ode 和 Leaf 尽 可 能 地 返回 已 存在 的 结 点 。 我 们 假设 entry-a 指 向 符号 表 中 
与 a 对 应 的 项 ， 其 他 标识 符 的 处 理 方式 与 此 类 似 。 


pi = Leaf (id, entry-a) 

Da = Leaf (id, entry-a) = pi 
Da = Leaf (id, entry-b) 

Da = Leaf (id, entry-c) 

ps = Node(’—’, p3, p4) 

pe = Node('*’, p1, ps) 


27 = Node('+',p1, pe) 

pg = Leaf (id, entry-b) = p3 
De = Leaf (id, entry-c) = pa 
p10 = Node(’—’,p3,p4) = ps 
p11 = Leaf (id, entry-d) 

p12 = Node(’'*', ps, p11) 

p13 = Node('+", pr, p12) 





图 6-5 ”图 6-3 所 示 的 DAG 的 构造 过 程 


当 在 第 2 步 再 次 调用 Leaf (id，entry-a〉 时 ， 消 数 返回 的 是 之 前 调用 
生成 的 结 点 ， 因 此 ps=p1。 类 似 地 ， 第 8 步 和 第 9 步 返 回 的 结 点 分 别 和 第 3 
步 及 第 4 步 返 回 的 结果 相同 〈( 即 pg=p3，po=p4)〉。 同 样 ， 第 10 步 返回 的 结 
点 必然 和 第 5 步 中 返回 的 结 点 相同 ， RHp10=ps。 





6.1.2 ”构造 DAG 的 值 编码 方法 


语法 树 或 DAG 图 中 的 结 点 通常 存放 在 一 个 记录 数组 中 ， 如 图 6-6 所 
示 。 数 组 的 每 一 行 表 示 一 个 记录 ， 也 就 是 一 个 结 点 。 在 每 个 记录 中 ， 第 
一 个 字段 是 一 个 运算 符 代 码 ， 也 是 该 结 点 的 标号 。 在 图 6-6b 中 ， 各 个 叶 
子 结 点 还 有 一 个 附加 的 字段 ， 它 存放 了 标识 符 的 词法 值 〈 在 这 里 ， 它 是 
一 个 指向 符号 表 的 指针 或 一 个 常量 ) 。 内 部 结 点 则 有 两 个 附加 的 字段 ， 
分 别 指明 其 左右 子 结 点 。 





S 
到 人 


a) DAG b) 数组 
图 6-6 i=i+10 的 DAG 的 结 点 在 数组 中 的 表示 


在 这 个 数组 中 ， 我 们 只 需要 给 出 一 个 结 点 对 应 的 记录 在 此 数组 中 的 
整数 下 标 束 可 以 引用 该 结 点 。 在 历史 上 ， 这 个 整数 称 为 相应 结 点 或 该 结 
点 所 表示 的 表达 式 的 值 编码 (value number) 。 例 如 ， 在 图 6-6 中 ， 标 号 
为 “+2” 的 结 点 的 值 编码 为 3， 其 左右 子 结 点 的 值 编码 分 别 为 1 和 2。 在 实践 
中 ， 我 们 可 以 用 记录 指针 或 对 象 引用 来 代 蔡 整数 下 标 ， 但 是 我 们 仍然 把 
一 个 结 点 的 引用 称 为 该 结 点 的 “ 值 编码 >”。 如 果 使 用 适当 的 数据 结构 ， 值 
人 
J 


假定 结 点 按照 如 图 6-6 所 示 的 方式 存放 在 一 个 数组 中 ， 每 个 结 反 通 
过 其 值 编码 引用 。 设 每 个 内 部 结 点 的 范 型 为 三 元 组 <op，1，r>， 其 中 op 
是 标 写 ，1l 是 其 左 子 结 皮 对 应 的 值 编码 ，r 是 其 右 子 结 反 对 应 的 值 编码 。 
假设 单 目 运算 符 对 应 的 结 点 有 r=0。 


国事 泣 ”构造 DAG 的 结 点 的 值 编码 方法 。 

输入 : 标号 op、 结 点 1 和 结 点 r。 

答 出 : 数组 中 具有 三 元 组 <op，1，r> 形 式 的 结 点 的 值 编码 。 

方法 : 在 数组 中 搜索 标号 为 op、 左 子 结 点 为 ! 且 右 子 结 点 为 的 结 点 
M。 如 果 存 在 这 样 的 结 点 ， 则 返回 M 结 点 的 值 编码 。 若 不 存在 这 样 的 结 
点 ， 则 在 数组 中 添加 一 个 结 点 N， 其 标号 为 op， 左 右 子 结 点 分 别 为 ] 和 
r， 返 回 新 建 结 点 对 应 的 值 编码 。 

虽然 算法 6.3 可 以 产生 我 们 期 待 的 输出 结果 ， 但 是 每 次 定位 一 个 结 


点 时 都 要 搜索 整个 数组 ， 这 个 开销 是 很 大 的 ， 当 数组 中 存放 了 整个 程序 
的 所 有 表达 式 时 尤其 如 此 。 更 高 效 的 方法 是 使 用 散 列 表 ， 将 结 点 放 入 知 






































干 “ 桶 * 中 ， 每 个 桶 通常 只 包含 少量 结 点 。 散 列表 是 能 够 高 效 支持 词典 
Cdictionary) 功能 的 少数 几 个 数据 结构 之 一 凹 。 词 典 是 一 种 抽象 的 数据 
类 型 ， 它 可 以 插入 或 删除 一 个 集合 中 的 元 素 ， 可 以 确定 一 个 给 定 元 素 当 
前 是 否 在 集合 中 。 类 似 于 散 列 表 这 样 为 词典 设计 的 优秀 数据 结构 可 以 在 
或 接 近 党 数 的 时 站 内 究 成 上 述 的 换 作 ， 所 需 时 间 和 集合 的 大 小 天 











要 给 DAG 中 的 结 点 构造 散 列 表 ， 首 先 需要 建立 散 列 函数 (hash 
function) h。 这 个 函数 为 形 如 <op，1，z> 的 三 元 组 计算 “ 桶 ”的 索引 。 它 
通过 计算 索引 把 三 元 组 分 配 到 各 个 桶 中 ， 并 使 得 不 大 可 能 存在 某 
个 “ 桶 ”的 元 组 数量 大 大 超过 平均 数 很 多 。 通 过 对 op、1、r 的 计算 ， 可 以 
确定 地 得 到 桶 索引 h (op，1，r) 。 因 而 我 们 可 以 多 次 重复 这 个 计算 过 
程 ， 总 是 得 到 结 点 <op，1，zr> 的 相同 的 桶 索引 。 


桶 可 以 通过 链表 来 实现 ， 如 图 6-7 所 示 。 一 个 由 散 列 值 索 引 的 数组 
保存 桶 的 头 〈bucket header) 。 每 个 头 指 加 列表 中 的 第 一 个 单元 。 在 一 
个 桶 的 链表 中 ， 链 表 的 各 个 单元 记录 了 茶 个 被 散 列 函数 分 配 到 此 桶 中 的 
菏 个 结 点 的 值 编码 。 也 就 是 说 ， 在 以 数组 的 第 h (op，1,，r) 个 元 系 为 头 
的 链表 中 可 以 找到 绪 点 <op，1， 疡 。 














以 散 列 值 为 索 
引 的 桶 头 的 数组 





图 6-7 用 于 搜索 桶 的 数据 结构 


因此 ， 给 定 一 个 输入 结 点 (op，1，r)〉 ， 我 们 首先 计算 桶 索引 
h (op，1, r) ， 人 然后 在 该 桶 的 单元 中 搜索 这 个 结 点 。 通 币 情 况 下 有 足够 
多 的 桶 ， 因 此 链表 中 不 会 有 很 多 单元。 然而 ， 我 们 必须 查看 一 个 桶 中 的 
所 有 单元 ， 并 且 对 于 每 一 个 单元 中 的 值 编码 v， 我 们 必须 检查 输入 结 点 
的 三 元 组 <op，1， 访 是 舍 和 单元 列表 中 值 编码 为 v 的 结 点 相 匹 配 (如 图 6- 





7 所 示 ) 。 如 果 我 们 找到 了 匹配 的 结 点 ， 束 返回 Y。 如 果 没 有 找到 匹配 的 
结 点 ， 我 们 知道 其 他 桶 中 也 不 会 有 这 样 的 结 点 。 因 此 ， 我 们 就 创建 一 个 
新 的 单元 ， 添 加 到 * 桶 ?索引 为 h (op，1，r) 的 单元 链表 中 ， 并 返回 新 建 
结 点 对 应 的 值 编码 。 





6.1.3 ”6.1 节 的 练习 


练习 6.1.1: 为 下 面 的 表达 式 构造 DAG 
( (xty) = ( (Xty) * (xX) ) ) 二 【人 (Xty) * (xy) ) 
练习 6.1.2: 为 下 列表 达 式 构造 DAG， 且 指出 它们 的 每 个 子 表 达 式 
的 值 编码 。 假 定 + 是 左 结合 的 。 
1)a+b+(a+b) 
2)atbiat+b 


3)at+a+(at+at+at+(a+at+a+ta)) 


6.2 三 地 址 代码 


在 三 地 址 代码 中 ， 一 条 指令 的 右 侧 最 多 有 一 个 运算 符 。 也 区 是 说 ， 
不 允许 出 现 组 合 的 算术 表达 式 。 因 此 ， 像 x+y*z 这 样 的 源 语 言 表 达 式 要 
被 翻译 成 如 下 的 三 地 址 指令 序列 。 





tl 三 了 六 世 
t2 = x + ti 


其 中 tx 和 ts 是 编译 露 产生 的 临时 名 字 。 因 为 三 地 址 代码 拆 分 了 多 运算 符 
算术 表达 式 以 及 控制 流 语句 的 和 藤 套 结构 ， 所 以 适用 于 目标 代码 的 生成 和 
优化 。 有 具体 的 过 程 将 在 第 8、9 章 中 详细 介绍 。 因 为 可 以 用 名 字 来 表示 程 
序 计 算得 到 的 中 间 结 果 ， 所 以 三 地 址 代码 可 以 方便 地 进行 重组 。 


三 地 址 代码 是 一 棵 语法 树 或 一 个 DAG 的 线性 表示 形式 。 三 地 址 
马 中 的 名 字 对 应 于 图 中 的 内 部 结 点 。 图 6-8 中 再 次 给 出 了 图 6-3 中 的 
DAG， 以 及 该 图 对 应 的 三 地 址 代码 序列 。 





十 
2 ee tC! SB= 
证 * t2 = a* ti] 
(， ts = a+ t» 
* d 
六 驴 t4 = t1 * d 
a 一 ts = ts + ta 
六 
b c 
a) DAG b) 三 地 址 代码 


图 6-8 一 个 DAG 及 其 对 应 的 三 地 址 代码 


6.2.1 地址 和 指令 





三 地 址 代码 基于 两 个 基本 概念 : 地 址 和 指令 。 按 照 面向 对 象 的 说 


法 ， 这 两 个 概念 对 应 于 两 个 类 ， 而 各 种 类 型 的 地 址 和 指令 对 应 于 相应 的 
子 类 。 男 一 种 方法 是 用 记录 的 方式 来 实现 三 地 址 代码 ， 记 录 中 的 字段 用 
来 保存 地 址 。6.2.2 市 将 简要 介绍 被 称 为 四 元 式 和 三 元 式 的 记录 表示 方 


式 。 








地 址 可 以 具有 如 下 形式 之 一 : 


名 字 。 为 方便 起 见 ， 我 们 允许 源 程 序 的 名 字 作 为 三 地 址 代码 中 的 地 
址 。 在 实现 中 ， 源 程序 名 字 被 蔡 换 为 指向 符号 表 条 目的 指针 。 关 于 
该 名 字 的 所 有 信息 均 存 放 在 该 条 目 中 。 

常量 。 在 实践 中 ， 编 译 器 往往 要 处 理 很 多 不 同类 型 的 常量 和 变量 。 
6.5.2 节 将 考虑 表达 式 中 的 类 型 转换 问题 。 

编译 器 生成 的 临时 变量 。 在 每 次 需要 临时 变量 时 产生 一 个 新 名 字 是 
必要 的 ， 在 优化 编译 器 中 更 是 如 此 。 当 为 变量 分 配 寄 存 器 的 时 候 ， 
我 们 可 以 尽 可 能 地 合并 这 些 临 时 变量 。 


下 面 我 们 介绍 本 书 的 其 余部 分 第 用 的 儿 种 三 地 址 指令 。 改 变 控制 流 
的 指令 将 使 用 符号 化 标号 。 每 个 符号 化 标号 表示 指令 序列 中 的 一 条 三 地 
址 指令 的 序号 。 通 过 一 次 扫描 ， 或 者 通过 回填 技术 就 可 以 把 符 吕 化 标号 
人 蕉 换 为 实际 的 指令 位 置 。 回 填 技术 将 在 6.7 市 中 讨论 。 下 面 给 出 几 种 沼 
见 的 三 地 址 指令 形式 : 


1) 形 如 x=y op z 的 赋值 指令 ， 其 中 op 是 一 个 双 目 算术 符 或 逻辑 运算 
符 。x、y、z 是 地 址 。 


2) 形 如 x=op y 的 赋值 指令 ， 其 中 op 是 单 目 运算 符 。 基 本 的 单 目 运 
算 符 包括 单 目 减 、 罗 辑 非 和 转换 运算 。 将 整数 转换 成 浮 点 数 的 运算 就 是 
转换 运算 的 一 个 例子 。 

3) 形 如 x=y 的 复制 指令 ， 它 把 y 的 值 赋 给 x。 


4) 无 条 件 转 移 指令 goto L， 下 一 步 要 执行 的 指令 是 带 有 标号 LL 的 三 
地 址 指令 。 

5) 形 如 if x goto L 或 if False Xx goto 工 的 条 件 转移 指令 。 分 别 当 x 
为 真 或 为 假 时 ， 这 两 个 指令 的 下 一 步 将 执行 带 有 标号 上 L 的 指令 。 否 则 下 
一 步 将 照常 执行 序列 中 的 后 一 条 指令 。 





























6) 形 如 if x relopy goto 工 的 条 件 转 移 指 令 。 它 对 x 和 y 应 用 一 个 关 
系 运算 符 (<、==、>= 等 ) 。 如 果 x 和 y 之 间 满 足 relop 关 系 ， 那 么 下 一 步 
i 否则 将 执行 指令 序列 中 跟 在 这 个 指令 之 后 的 
日 下。 

7) 过 程 调用 和 返回 通过 下 列 指令 来 实现 : param x 进行 参数 传 
递 ，call p，n 和 y=call p，n 分 别 进行 过 程 调用 和 函数 调用 :return y 是 
返回 指令 ， 其 中 y 表 示 返 回 值 ， 该 指令 是 可 选 的 。 这 些 三 地 址 指令 的 常 
见 用 法 见 下 面 的 三 地 址 指令 序列 





param Z1 
param 22 


param TZ, 
call p,n 


它 是 过 程 p (x1，x2，...，Xn) 的 调用 的 一 部 分 。“call p，n” 中 的 n 是 实 
在 参数 的 个 数 。 这 个 n 并 不 是 见 余 的 ， 因 为 存在 钥 套 调用 的 情况 。 也 束 
是 说 ， 前 面 的 一 些 param 语 句 可 能 是 p 返 回 之 后 才 执 行 的 某 个 函数 调用 的 
参数 ， 而 p 的 返回 值 又 成 为 这 个 后 续 函 数 调 用 的 另 一 个 参数 。 过 程 调用 
的 实现 将 在 6.9 节 中 加 以 介绍 。 


8) 带 下 标的 复制 指令 x=y [ij 和 x [ij =y。x=y [Lij 指令 将 把 距离 
位 置 y 处 i 个 内 存单 元 的 位 置 中 存放 的 值 赋 给 x。 指 令 x [ij =y 将 距离 位 置 
x 处 i 个 内 存单 元 的 位 置 中 的 内 容 设 置 为 y 的 值 。 


9) 形 如 x=&y、x=*y 或 *x=y 的 地 址 及 指针 赋值 指令 。 指 令 x=&y 将 x 
的 右 值 设置 为 y 的 地 址 〈 左 值 ) 纪 。 这 个 y 通 常 是 一 个 名 字 ， 也 可 能 是 一 
个 临时 变量 。 它 表示 一 个 诸如 A [i] [j] 这 样 具 有 左 值 的 表达 式 。x 是 一 
个 指针 名 字 或 临时 变量 。 在 指令 x=*y 中 ， 假 定 y 是 一 个 指针 ， 或 是 一 个 
其 右 值 表示 内 存 位 置 的 临时 变量 。 这 个 指令 使 得 x 的 右 值 等 于 存储 在 这 
ts 最 后 ， 指 令 *x=y 则 把 y 的 右 值 赋 给 由 x 指向 的 目标 的 右 


考虑 语句 


do i = i+1; while (a[i] < v): 























图 6-9 给 出 了 这 个 语句 的 两 种 可 能 的 翻译 。 在 图 6-9a 的 翻译 中 ， 第 一 条 指 
令 上 附加 了 一 个 符号 化 标号 L。 图 6-9b 中 的 翻译 显示 了 每 条 指令 的 位 置 
写 ， 我 们 在 图 中 选择 以 100 作 为 开始 位 置 。 在 两 种 翻译 中 ， 最 后 一 条 指 
令 都 是 目标 为 第 一 条 指令 的 条 件 转移 指令 。 乘 法 运算 i*8 适 用 于 每 个 元 
素 占 8 个 存储 单元 的 数组 。 











Ls ti ti =1i+1 
i = tl i = ti 
t»> = 1i*8 t»> = i*8 


ts3 =a [Lt»] 
if t3 < Vv goto L 


ts =a [tj 
if t3 < Vv goto 100 








a) 符号 标号 b) 位 置 号 
图 6-9 ”给 三 地 址 指令 指定 标号 的 两 种 方法 


选择 使 用 哪些 运算 符 是 中 间 表 示 形 式 设计 的 一 个 重要 问题 。 显 然 ， 
这 个 运算 符 集合 中 的 运算 符 要 足够 丰富 ， 以 便 实现 源 语言 中 的 所 有 运 
算 。 接 近 机 融 指 令 的 运算 符 可 以 使 在 目标 机 器 上 实现 中 间 表 示 形 式 更 加 
容易 。 然 而 ， 如 果 前 端 必 须 为 荣 些 源 语言 运算 生成 很 长 的 指令 序列 ， 那 
么 优化 器 和 代码 生成 右 束 需要 花费 更 多 的 时 间 去 重新 发 现 程序 的 结构 ， 
然后 才能 为 这 些 运 算 生 成 高 质量 的 目标 代码 。 




















6.2.2 ”四 元 式 表示 


上 面 对 三 地 址 指令 的 描述 详细 说 明了 各 类 指令 的 组 成 部 分 ， 但 是 并 
没有 描述 这 些 指 令 在 某 个 数据 结构 中 的 表示 方法 。 在 编译 器 中 ， 这 些 指 
令 可 以 实现 为 对 象 ， 或 者 是 带 有 运算 符 字 段 和 运算 分 量 字段 的 记录 。 四 
元 式 、 三 元 式 和 间接 三 元 式 是 三 种 这 样 的 描述 方式 。 

一 个 四 元 式 (quadruple〉 有 四 个 字段 ， 我 们 分 别称 为 op、arg1、 
arg2、Tresult。 字 上 段 op 包含 一 个 运算 符 的 内 部 编码 。 举 例 来 说 ， 在 三 地 址 
指令 x=y+z 相 应 的 四 元 式 中 ，op 字 段 中 存放 +，arg1 中 为 y，arg; 中 为 z， 
result 中 为 x。 下 面 是 这 个 规则 的 一 些 特例 : 


1) 形 如 x=minus y 的 单 目 运算 符 指 令 和 赋值 指令 x=y 不 使 用 arg，。 注 




















意 ， 对 于 像 x=y 这 样 的 赋值 语句 ，op 是 =， 而 对 大 部 分 其 他 运算 而 言 ， 赋 
值 运算 符 是 隐 含 表示 的 。 


2) 像 param 这 样 的 运算 既 不 使 用 arg>， 也 不 使 用 result。 
3) 条 件 或 非 条 件 转移 指令 将 目标 标号 放 入 result 字 段 。 

el 赋值 语句 a=b*-c+b*-c 的 三 地 址 代码 如 图 6-10a 所 示 。 这 里 我 们 
于 殊 的 minus 运 算 符 来 表示 “-c” 中 的 单 目 减 运算 符 “”， 以 区 别 于 “b- 


c” 中 的 双 目 减 运算 符 “-”。 请 注意 ， 单 目 减 的 三 地 址 语句 中 只 有 两 个 地 
址 ， 复 制 语句 a=ts 也 是 如 此 。 








图 6-10b 描 述 了 实现 图 6-10a 中 三 地 址 代码 的 四 元 式 序列 。 


op arg, arg, result 








t1 = minus c 
t2 = b * ti 
ta3 = minus < 
ta = b * ts 
ts = t> + ta 
a 二 此 名 
a) 三 地 址 代码 b) 四 元 式 


图 6-10 三 地 址 代码 及 其 四 元 式 表示 


为 了 提高 可 读 性 ， 我 们 在 图 6-10b 中 直接 用 实际 标识 符 ， 比 如 用 a、 
b、<c 来 描述 argi 、arg> 以 及 result 字 段 ， 而 没有 使 用 指 癌 相应 符号 表 条 目 
的 指针 。 临 时 名 字 可 以 像 程 序 员 定义 的 名 字 一 样 被 加 入 到 符号 表 中 ， 也 
可 以 实现 为 Temp 类 的 对 象 ， 这 个 Temp 类 有 目 己 的 方法 。 


6.2.3 ”三 元 式 表示 


一 个 三 元 式 〈triple) 只 有 三 个 字段 ， 我 们 分 别称 之 为 op、arg1 和 
arg。 请 注意 ， 图 6-10b 中 的 result 字 段 主要 被 用 于 临时 变量 名 。 使 用 三 
元 式 时 ， 我 们 将 用 运算 xop y 的 位 置 来 表示 它 的 结果 ， 而 不 是 用 一 个 显 


式 的 临时 名 字 表 示 。 例 如 ， 在 三 元 式 表示 中 将 直接 用 位 置 0) ， 而 不 
古 像 图 6-10b 中 那样 用 临时 名 字 ti 来 表示 对 相应 运算 结果 的 引用 。 带 有 括 
号 的 数字 表示 指向 相应 三 元 式 结构 的 指针 。 在 6.1.2 市 中 ， 位 置 或 指 辣 位 
置 的 编码 被 称 为 值 编码 。 


三 元 式 基本 上 和 算法 6.3 中 的 结 点 范 型 等 价 。 因 此 ， 表 达 式 的 DAG 
表示 和 三 元 式 表示 是 等 价 的 。 当 然 这 种 等 价 关 系 仪 对 表达 式 成 立 ， 因 为 
语法 树 的 变 体 和 三 地 址 代码 分 别 以 完全 不 同 的 方式 来 表示 控制 流 。 

图 6-11 中 给 出 的 语法 树 和 三 元 式 表 示 对 应 于 图 6-10 中 的 三 地 址 

乌 及 四 元 式 序列 。 在 图 6-11b 给 出 的 三 元 式 表示 中 ， 复 制 语句 a=ts 按 照 
下 列 方式 表示 为 一 个 三 元 式 ， 在 字段 arg1 中 放置 4a， 而 在 字段 args 中 放置 三 元 式 位 
置 的 值 编码 (4) 。 
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图 6-11 ，a=b#k-c+bk-c 的 表示 


像 x [ij =y 这 样 的 三 元 运算 在 三 元 式 结构 中 需要 两 个 条 目 。 例 如 ， 
我 们 可 以 把 x 和 ji 置 于 一 个 三 元 式 中 ， 并 把 y 置 于 妃 一 个 三 元 式 中 。 类 似 
的 ， 我 们 可 以 把 x=y [ij 看 成 是 两 条 指令 t=y [ij 和 x=t， 从 而 用 三 元 式 
实现 这 个 语句 。 其 中 的 t 是 编译 圳 生 成 的 临时 变量 。 请 注意 ， 实 际 上 { 是 
不 会 出 现在 三 元 式 中 的 ， 因 为 在 三 元 式 结构 中 是 通过 相应 三 元 式 结 构 的 
位 置 来 引用 临时 值 的 。 














为 什么 我 们 需要 复制 指令 ? 





如 图 6-10a 所 示 ， 一 个 简单 的 翻译 表达 式 的 算法 往往 会 为 赋值 运 


算 生 成 复制 指令 。 在 该 图 中 ， 我 们 将 ts 复制 给 a， 而 不 是 直接 将 tz+ts 
赋 给 a。 通 常 ， 每 个 子 表达 式 都 会 有 一 个 它 自己 的 新 临时 变量 来 存放 
运算 结果 。 只 有 当 处 理 赋 值 运算 符 = 时 ， 我 们 才 知 道 将 把 整个 表达 式 
的 结果 赋 到 哪里 。 一 个 代码 优化 过 程 将 会 发 现 ts 可 以 被 替换 为 a。 这 
个 优化 过 程 可 能 使 用 6.1.1 节 中 描述 的 DAG 作 为 中 间 表 示 形 式 。 








在 优化 编译 器 中 ， 由 于 指令 的 位 置 第 常会 发 生变 化 ， 四 元 式 相对 于 
三 元 式 的 优势 就 体现 出 来 了 。 使 用 四 元 式 时 ， 如 果 我 们 移动 了 一 个 计算 
临时 变量 t 的 指令 ， 那 些 使 用 t 的 指令 不 需要 做 任何 改变 。 而 使 用 三 元 式 
时 ， 对 于 运算 结果 的 引用 是 通过 位 置 完成 的 ， 因 此 如 果 改 变 一 条 指令 的 
位 置 ， 则 引用 该 指令 的 结果 的 所 有 指令 都 要 做 相应 的 修改 。 使 用 下 面 将 
要 介绍 的 间接 三 元 式 时 就 不 会 出 现 这 个 问题 。 


间接 三 元 式 (indirect triple〉 包 含 了 一 个 指 问 三 元 式 的 指针 的 列 
表 ， 而 不 是 列 出 三 元 式 序列 本 里 。 例 如 ， 我 们 可 以 使 用 数组 instruction 
按照 适当 的 顺序 列 出 指 癌 三 元 式 的 指针 。 这 样 ， 图 6-11b 中 的 三 元 式 序 
列 束 可 以 表示 成 为 图 6-12 所 示 的 形式 。 











instruction 0p Qarg! Qar7g» 





图 6-12 ”三 地 址 代码 的 间接 三 元 式 表 示 


使 用 间接 三 元 式 表 示 方 法 时 ， 优 化 编译 器 可 以 通过 对 instruction 列 
表 的 重新 排序 来 移动 指令 的 位 置 ， 但 不 影响 三 元 式 本 身 。 在 用 Java 实 现 
时 ， 一 个 指令 对 象 的 数组 和 间接 三 元 式 表 示 类 似 ， 因 为 Java 将 数组 元 素 
作为 对 象 引用 来 处 理 。 








6.2.4 静态 单 赋值 形式 


静态 单 赋值 形式 〈SSA) 是 另 一 种 中 间 表 示 形 式 ， 它 有 利于 实现 东 
些 类 型 的 代码 优化 。SSA 和 三 地 址 代码 的 区 别 主要 体现 在 两 个 方面 。 首 
先 ，SSA 中 的 所 有 赋值 都 是 针对 具有 不 同名 字 的 变量 的 ， 这 也 是 “静态 
单 赋 值 ?这 一 名 字 的 由 来 。 图 6-13 给 出 了 分 别 以 三 地 址 代码 形式 和 静态 
单 赋值 形式 表示 的 中 间 程 序 。 注 意 ，SSA 表 示 中 对 变量 p 和 qd 的 每 次 定 值 
都 以 不 同 的 下 标 加 以 区 分 。 








b) 青 态 单 赋值 形式 


图 6-13 ”三 地 址 代码 形式 和 SSA 形 式 的 中 间 程 序 


在 一 个 程序 中 ， 同 一 个 变量 可 能 在 两 个 不 同 的 控制 流 路 径 中 被 定 
值 。 例 如 ， 下 列 源 程序 
if ( flag ) x = -1; else x = 1; 
y=Xx* a; 
中 ，x 在 两 个 不 同 的 控制 流 路 径 中 被 定 值 。 如 果 我 们 对 条 件 语 句 的 真 分 
文 和 假 分 文中 的 x 使 用 不 同 的 变量 名 ， 那 么 我 们 应 该 在 赋值 运算 y=x*a 中 


使 用 哪个 名 字 ? 这 也 是 SSA 的 第 二 个 特别 之 处 。SSA 使 用 一 种 被 称 为 @ 
函数 的 表示 规则 将 x 的 两 处 定 值 合并 起 来 : 





if ( flag ) xl = -1; else x» = 1; 
x3 = p(x1, X2); 


如 果 控 制 流 经 过 这 个 条 件 语 句 的 真 分 支 ， 《x1，xs)〉 的 值 为 xi; 
人 否则， 如 果 控 制 流 经 过 假 分 文 ，9@ 函数 的 值 为 xz。。 也 就 是 说 ， 根 据 到 达 
包含 四 函数 的 赋值 语句 的 不 同 控制 流 路 笃 ，D 函数 返回 不 同 的 参数 值 。 


6.2.5”6.2 节 的 练习 


练习 6.2.1: 将 算术 表达 式 a+- (b+c) 翻译 成 
1) 抽象 语法 树 

2) 四 元 式 序 列 

三 元 式 序 列 

间接 三 元 式 序列 

练习 6.2.2: 对 下 列 赋值 语句 重复 练习 6.2.1。 


— 


3 


4 


— 


1) a = b[i] + efj] 
2)a[li] = bxc - bx*d 
3)x= flyt1) * 2 
4)x = *p+&y 


! 练习 6.2.3: 说 明 如 何 对 一 个 三 地 址 代码 序列 进行 转换 ， 使 得 每 个 
被 定 值 的 变量 都 有 唯一 的 变量 名 。 


6.3 ”类型 和 声明 


可 以 把 类 型 的 应 用 划分 为 类 型 检查 和 翻译 : 


类 型 检查 (type checking) 。 类 型 检查 利用 一 组 逻辑 规则 来 推理 一 
个 程序 在 运行 时 刻 的 行为 。 更 明确 地 讲 ， 类 型 检查 保证 运算 分 量 的 
类 型 和 运算 符 的 预期 类 型 相 匹 配 。 例 如 ，Java 要 求 && 运 算 符 的 两 
个 运算 分 量 必须 是 boolean 型 。 如 果 满 足 这 个 条 件 ， 结 果 也 具有 
boolean 类 型 。 

翻译 时 的 应 用 (translation application) 。 根 据 一 个 名 字 的 类 
型 ， 编 译 右 可 以 确定 这 个 名 字 在 运行 时 刻 需 要 多 大 的 存储 空间 。 类 
型 信息 还 会 在 其 他 很 多 地 方 被 用 到 ， 包 括 计 算 一 个 数组 引用 所 指示 
的 地 址 ， 插入 显 式 的 类 型 转换 ， 选 择 正 确 版 本 的 算术 运算 符 ， 等 
s 于 o 














在 这 一 节 中 ， 我 们 将 考虑 在 某 个 过 程 或 类 中 声明 的 名 字 的 类 型 及 存 
储 空 间 布局 问题 。 一 个 过 程 调 用 或 对 象 的 实际 存储 空间 是 在 运行 时 刻 
( 当 该 过 程 被 调用 或 该 对 象 被 创 建 时 〉 进行 分 配 的 。 然 而 ， 当 我 们 在 编 
译 时 刻 检查 局 部 声明 时 ， 可 以 进行 相对 地 址 (relative address) 的 布 
局 ， 一 个 名 字 或 某 个 数据 结构 分 量 的 相对 地 址 是 指 它 相对 于 数据 区 域 开 
始 位 置 的 偏 移 量 。 





6.3.1 ”类 型 表达 式 





类 型 自身 也 有 结构 ， 我 们 使 用 类 型 表达 式 (type expression) 来 表 
示 这 种 结构 : 类 型 表达 式 可 能 是 基本 类 型 ， 也 可 能 通过 把 被 称 为 类 型 构 
造 算 子 的 运算 符 作 用 于 类 型 表达 式 而 得 到 。 基 本 类 型 的 集合 和 类 型 构造 
算 子 根据 被 检查 的 具体 语言 而 定 。 


数组 类 型 int [2] [3] 表示 “由 两 个 数组 组 成 的 数组 ， 其 中 的 每 
站 歼 组 各 包含 3 个 整数 ”"。 它 的 类 型 表达 式 可 以 写成 array (2，array (3， 
integer) ) 。 该 类 型 可 以 用 如 图 6-14 所 示 的 树 来 描述 。array 运 算 符 有 两 
个 参数 : 一 个 数字 和 一 个 类 型 。 








array 


arTay 


nteger 





图 6-14 int [2] [3] 的 类 型 表达 式 
我 们 将 使 用 如 下 的 类 型 表达 式 的 定义 : 


。 基本 类 型 是 一 个 类 型 表达 式 。 一 种 语言 的 基本 类 型 通常 包括 
boolean、char、integer、float 和 void。 最 后 一 个 类 型 表示 “没有 值 ”。 

。 类 名 是 一 个 类 型 表达 式 。 

。 将 类 型 构造 算 子 array 作 用 于 一 个 数字 和 一 个 类 型 表达 式 可 以 得 到 一 
个 类 型 表达 式 。 

。 一 个 记录 是 包含 有 名 字段 的 数据 结构 。 将 record 类 型 构造 算 子 应 用 
于 字段 名 和 相应 的 类 型 可 以 构造 得 到 一 个 类 型 表达 式 。 在 6.3.6 节 
中 ， 记 录 类 型 的 实现 方法 是 把 构造 算 子 record 应 用 于 包含 了 各 个 字 
段 对 应 条 目的 符号 表 。 

使 用 类 型 构造 算 子 ~ 可 以 构造 得 到 函数 类 型 的 类 型 表达 式 。 我 们 
把 “从 类 型 s 到 类 型 { 的 函数 ?写成 St。 在 6.5 节 中 讨论 类 型 检查 时 ， 
函数 类 型 是 有 用 的 。 

如 果 s 和 t 是 类 型 表达 式 ， 则 其 笛 卡 儿 积 sxt 也 是 类 型 表达 式 。 引 入 和 
卡 儿 积 主要 是 为 了 保证 定义 的 完整 性 。 它 可 以 用 于 描述 类 型 的 列表 
或 元 组 (例如 ， 用 于 表示 函数 参数 ) 。 我 们 假定 x 具有 左 结合 性 ， 
并 且 其 优先 级 高 于 一 。 

类 型 表达 式 可 以 包含 取 值 为 类 型 表达 式 的 变量 。 在 6.5.4 市 中 将 用 到 

编译 器 产生 的 类 型 变量 。 


图 是 表示 类 型 表达 式 的 一 种 比较 方便 的 方法 。 可 以 修改 6.1.2 市 中 给 
出 的 值 编码 方法 ， 以 构造 一 个 类 型 表达 式 的 DAG。 图 的 内 部 结 反 表示 类 
型 构造 算 子 ， 而 叶子 结 点 是 基本 类 型 、 类 型 名 或 类 型 变量 。6.1.4 给 出 了 
一 棵 树 的 实例 马 。 


类 型 名 和 递归 类 型 




















在 C++ 和 Java 中 ， 类 一 旦 被 定义 ， 其 名 字 就 可 以 被 用 来 表示 类 型 
名 。 例 如 ， 考 虑 下 列 程序 片段 中 的 Node 类 。 


public class Node {-.. } 


public Node n.; 


类 型 名 还 可 以 用 来 定义 递归 类 型 ， 在 像 链 表 这 样 的 数据 结构 中 要 用 到 
递归 类 型 。 一 个 列表 元 素 的 伪 代 码 如 下 : 


class Cell { int info; Cell next; ... } 


它 定 义 了 一 个 递归 类 型 cel1。 这 个 类 包括 一 个 info 字 段 和 另 一 个 cel1 
类 型 的 字段 next。 在 C 中 可 以 通过 记录 和 指针 来 定义 类 似 的 递归 类 
型 。 本 章 介 绍 的 技术 也 适用 于 递归 类 型 。 





两 个 类 型 表达 式 什 么 时 候 等 价 呢 ? 很 多 类 型 检查 规则 共有 这 样 的 形 
式 ,“ 如 果 两 个 类 型 表达 式 相 等 ， 那 么 返回 东 种 类 型 ， 人 否则 出 错 ?”。 当 给 
一 些 类 型 表达 式 合 名， 并 且 这 些 名 字 在 之 后 的 其 他 类 型 表达 式 中 使 用 时 
束 可 能 会 产生 卜 义 。 关 键 问 题 在 于 一 个 类 型 表达 式 中 的 名 字 是 代表 它 自 
喘 呢 ， 还 是 被 看 作为 一 个 类 型 表达 式 的 一 种 缩写 形式 。 


当 用 图 来 表示 类 型 表达 式 的 时 候 ， 两 种 类 型 之 间 结 构 等 价 
Cstructurally equivalent) 当 且 仅 当 下 面 的 某 个 条 件 为 真 : 
。 它们 是 相同 的 基本 类 型 。 
。 它们 是 将 相同 的 类 型 构造 算 子 应 用 于 结构 等 价 的 类 型 而 构造 得 到 。 
。 一 个 类 型 是 另 一 个 类 型 表达 式 的 名 字 。 


如 果 类 型 名 仅仅 代表 和 它 上 自身 ， 那 么 上 述 定 义 中 的 前 两 个 条 件 定 义 了 
类 型 表达 式 的 名 等 价 (name equivalence) 关系 。 


如 采 我 们 使 用 算法 6.3， 那 么 名 等 价 表达 陈 将 被 赋予 相 同 的 值 纺 











码 。 结 构 等 价 关系 可 以 使 用 6.5.5 节 中 给 出 的 合 一 算法 进行 检验 。 
6.3.3 ”声明 


我 们 在 研究 类 型 及 其 声明 时 将 使 用 一 个 经 过 简化 的 文法 ， 在 这 个 文 
法 中 一 次 只 声明 一 个 名 字 。 一 次 声明 多 个 名 字 的 情况 可 以 像 例 5.10 中 讨 
论 的 那样 进行 处 理 。 我 们 使 用 的 文法 如 下 : 








> Tid;D |E 

> BOC | record '{D'’'} 
一 int | float 

> ce| [num]C 


人 二 


上 述 处 理 基本 类 型 和 数组 类 型 的 文法 ， 可 以 用 来 演示 5.3.2 节 中 描述 的 继 
OR 
和 J 存储 布局 。 


非 终 结 符号 D 生 成 一 系列 声明 。 非 终结 符号 T 生 成 基本 类 型 、 数 组 
类 型 或 记录 类 型 。 非 终结 符号 B 生 成 基本 类 型 int 和 float 之 一 。 非 终结 
符号 C〈 表 示 “ 分 量 ”) 产生 零 个 或 多 个 整数 ， 每 个 整数 用 方 括号 括 起 
来 。 一 个 数组 类 型 包含 一 个 由 B 指 定 的 基本 类 型 ， 后 面 跟 一 个 由 非 终结 
符号 C 指 定 的 数组 分 量 。 一 个 记录 类 型 (TI 的 第 二 个 产生 式 ) 由 各 个 记 
录 字 段 的 声明 序列 构成 ， 并 被 花 括 号 括 起 来 。 

















6.3.4 局 部 变量 名 的 存储 布局 





从 变量 类 型 我 们 可 以 知道 该 变量 在 运行 时 刻 需 要 的 内 存 数量 。 在 编 
译 时 刻 ， 我 们 可 以 使 用 这 些 数量 为 每 个 名 字 分 配 一 个 相对 地 址 。 名 他 的 
类 型 和 相对 地 址 信息 保存 在 相应 的 符号 表 条 目 中 。 对 于 字符 串 这 样 的 变 
长 数据 ， 以 及 动态 数组 这 样 的 只 有 在 运行 时 刻 才能 够 确定 其 大 小 的 数 
据 ， 处 理 的 方法 是 为 指向 这 些 数据 的 指针 保留 一 个 已 知 的 固定 大 小 的 存 
储 区域 。 运 行 时 刻 的 存储 管理 问题 将 在 第 7 章 中 讨论 。 


| | 





地 址 对 齐 


数据 对 象 的 存储 布局 受 目 标 机 器 的 寻 址 约束 的 影响 。 比 如 ， 将 整 
数 相 加 的 指令 往往 希望 整数 能 够 对 齐 (aligned) ， 也 就 是 说 ， 硕 望 它 
们 被 放 在 内 存 中 的 特定 位 置 上 ， 比 如 地 址 能 够 被 4 整除 的 位 置 上 。 虽 
然 一 个 有 10 个 字符 的 数组 只 需要 足以 存放 10 个 字符 的 字 市 空间 ， 但 编 
译 絮 常常 会 给 它 分 配 12 个 字 节 ， 即 下 一 个 4 的 倍数 ， 这 样 会 有 2 个 字 节 
没有 使 用 。 因 为 对 齐 的 要 求 而 分 配 的 无 用 空间 被 称 为 “ 补 
白 ”(padding) 。 当 空间 比较 宝贵 时 ， 编 译 占 需要 对 数据 进行 压缩 
(pack) ， 此 时 不 存在 “ 补 白 空间， 但 可 能 需要 在 运行 时 刻 执行 额外 
的 指令 把 被 压缩 的 数据 重新 定位 ， 以 便 这 些 数据 看 上 去 仍然 是 对 齐 
的 ， 从 而 进行 相关 运算 。 




















假设 存储 区 域 是 连续 的 字 节 块 ， 其 中 字 市 是 可 寻 址 的 最 小 内 存单 





位 。 一 个 字 节 通常 有 8 个 二 进 制 位 ， 铬 干 字 节 组 成 一 个 机 器 字 。 多 字 市 
数据 对 象 往往 被 存储 在 一 段 连 续 的 字 市 中 ， 并 以 初始 字 节 的 地 址 作为 该 
数据 对 象 的 地 址 。 


类 型 的 宽度 (width) 是 指 该 类 型 的 一 个 对 象 所 需 的 存储 单元 的 数 
量 。 一 个 基本 类 型 ， 比 如 字符 型 、 整 型 和 浮 点 型 ， 需 要 整数 多 个 的 字 
节 。 为 方便 访问 ， 为 数组 和 类 这 样 的 组 合 类 型 数据 分 配 的 内 存 是 一 个 连 
续 的 存储 字 节 块 镭 。 

图 6-15 中 给 出 的 翻译 方案 (SDT) 计算 了 基本 类 型 和 数组 类 型 以 及 
它们 的 宽度 。 记 录 类 型 将 在 6.3.6 节 中 讨论 。 这 个 SDT 为 每 个 非 终 结 符号 
使 用 综合 属性 type 和 width。 它 还 使 用 了 两 个 变量 t 和 w， 变 量 的 用 途 是 将 
类 型 和 宽度 信息 从 语法 分 析 树 中 的 B 结 点 传递 到 对 应 于 产生 式 C -EE 的 
结 点 。 在 语法 制导 定义 中 ，t 和 w 将 是 C 的 继承 属性 。 





{t= B.type; w = B.width; } 
{ T,type =C.type; T.width = C. width } 
{ B.type = integer; B.width = 4; } 


float { B.type = float; B.width = 8; } 


€ { C.type = t; C.width = w; } 


[num ] CI { C.type= array(num.value, C1.type); 
C.width = num.value x Ci.width; } 





图 6-15 计算 类 型 及 其 宽度 


T 产 生 式 的 产生 式 体 包含 一 个 非 终 结 符号 B、 一 个 动作 和 一 个 非 终 
结 符号 C， 其 中 C 显 示 在 下 一 行 上 。B 和 C 之 间 的 动作 是 将 t 设 置 为 
B.type， 并 将 w 设 置 为 B.width。 如 果 B ~ int， 则 B.type 被 设置 为 integer， 
B.width 被 设置 为 4， 即 一 个 整 型 数 的 宽度 。 类 似 的 ， 如 果 B ~ float， 则 
B.type 和 B.width 分 别 被 设置 为 float 和 8， 即 宽度 为 一 个 浮 点 数 的 宽度 。 


的 产生 式 决 定 了 TI 生成 的 是 一 个 基本 类 型 还 是 一 个 数组 类 型 。 如 
果 C -EeE， 则 t 变 成 C.type， 且 w 变 成 C.width。 


否则 ，C 就 描述 了 一 个 数组 分 量 。C -，[num] Cj 的 动作 将 类 型 构 
造 算 子 array 应 用 于 运算 分 量 num.value 和 Ci.type， 构 造 得 到 C.type。 例 
如 ， 应 用 array 的 结果 可 能 是 图 6-14 所 示 的 树 形 结构 。 


数组 的 宽度 是 将 数组 元 素 的 个 数 乘 以 单个 数组 元 素 的 宽度 而 得 到 
的 。 如 条 连续 存放 的 整数 的 地 址 之 间 的 差距 为 4， 那 么 一 个 整数 数组 的 
地 址 计算 将 包含 乘 4 运算 。 这 样 的 乘法 运算 为 优化 提供 了 机 会 ， 因 此 让 
前 端 程序 在 其 输出 中 明确 描述 这 些 运算 将 有 助 于 优化 。 在 这 一 章 中 ， 我 
比如 数据 对 象 的 地 址 必须 和 机 器 字 的 边 
六 To 


te DN eo 
实 线 描述 了 type 和 width 是 如 何 从 B 结 点 开始 ， 通 过 变量 t 和 w， 沿 着 多 个 
C 组 成 的 链 下 传 ， 然 后 又 作为 综合 属性 type 和 width 沿 此 链 返 回 的 。 在 访 
问 包含 C 结 点 的 子 树 之 前 ， 变 量 tfw 被 赋予 B.typpe 和 B.width 的 值 。 变 量 t 
和 w 的 值 在 C-, E 对 应 的 结 点 上 使 用 ， 然 后 开始 沿 着 多 个 C 结 点 组 成 的 链 
向 上 对 综合 属性 求 值 。 














T type = array(2, array(3, integer7)) 






| width = 24 
; | t= integer C type = array(2, array(3, integer)) 
~ type = integer w= 14 7 width= 24 
. width = 4 SS 8 
ent [ 9 本 type = array(3, integer) 


width = 12 


type = integer 
width = 4 


pp 


€ 


图 6-16 数组 类 型 的 语法 制导 翻译 


6.3.5 声明 的 序列 


像 C 和 Java 这 样 的 语言 文 持 将 单个 过 程 中 的 所 有 声明 作为 一 个 组 进 
行 处 理 。 这 些 声明 可 能 分 布 在 一 个 Java 过 程 中 ， 但 是 仍然 能 够 在 分 析 该 
过 程 时 处 理 它们 。 因 此 ， 我 们 可 以 使 用 一 个 变量 ， 比 如 offset， 来 跟踪 
下 一 个 可 用 的 相对 地 址 。 


图 6-17 中 的 翻译 方案 处 理 形 如 Tid 的 声明 的 序列 ， 其 中 的 T 如 图 6-15 
所 示 产 生 一 个 类 型 。 在 考虑 第 一 个 声明 之 前 ，offset 被 设置 为 0。 每 处 理 
一 个 变量 x 时 ，x 被 加 入 符号 表 ， 它 的 相对 地 址 被 设置 为 offset 的 当前 
值 。 随 后 ，x 的 类 型 的 宽度 被 加 到 offset 上。 


{ offset = 0; } 


D — Tid; {top.put(id.lexeme, T.type, offset); 


offset = offset+ T.width; } 
Di 





图 6-17 计算 被 声明 变量 的 相对 地 址 


产生 式 D Tid; DD1 中 的 语义 动作 首先 执行 top.put (id.lexeme， 
T.type，offset) ， 创 建 一 个 符号 表 条 目 。 这 里 的 top 指 回 当 前 的 符号 表 。 


方法 top.put 为 id.lexeme 创 建 一 个 符号 表 条 目 ， 该 条 目的 数据 区 中 存放 了 
类 型 T.type 和 相对 地 址 offset。 


如 果 我 们 把 第 一 个 产生 式 写 在 同一 行 中 : 
P— {offset=0; }D 《6.1) 
则 图 6-17 中 对 offset 的 初始 化 处 理 就 变 得 更 容易 理解 。 生 成 e 的 非 终 结 符 
号 称 为 标记 非 终 结 符号 ， 其 作用 是 重 写 产生 式 ， 使 得 所 有 的 语义 动作 都 


出 现在 产生 式 右 部 的 尾 端 ， 有 具体 方法 见 5.5.4 节 。 使 用 标记 非 终结 符号 
M， (6.1) 可 以 被 改写 为 : 





P— MD 


M— € {offset=0; } 
6.3.6 ”记录 和 类 中 的 字段 


图 6-17 中 对 声明 的 翻译 方案 还 可 以 用 于 处 理 记 录 和 类 中 的 字段 。 要 
把 记录 类 型 加 入 到 图 6-15 所 示 的 文法 中 ， 只 需要 加 上 下 面 的 产生 式 : 


工 =” record'{'D'}y 


这 个 记录 类 型 中 的 字段 由 D 生 成 的 声明 序列 描述 。 图 6-17 中 的 方法 可 以 
ji 当然 我 们 需要 小 心地 处 理 下 面 两 


。 一 个 记录 中 各 个 字段 的 名 字 必 须 是 互 不 相同 的 。 也 就 是 说 ， 在 由 D 
生成 的 声明 中 ， 同 一 个 名 字 最 多 出 现 一 次 。 
。 字段 名 的 偏 移 量 ， 或 者 说 相对 地 址 ， 是 相对 于 该 记录 的 数据 区 字段 


言 的 。 


在 一 个 记录 中 ， 把 名 字 x 用 作 字 段 名 并 不 会 和 记录 外 对 该 名 字 
其 和 使 用 产生 冲突 。 因 此 下 列 声明 中 对 x 的 三 次 使 用 是 不 同 的 ， 互 相 
之 间 并 不 冲突 。 























float x; 
record { float x; float y; } p; 
record { int tag; float x; float y; } q; 


这 些 声明 之 后 的 一 个 赋值 语句 x=p.x+q.x; 把 变量 x 的 值 设 置 为 记录 p 和 q 
中 x 字 让 的 值 的 和 。 请 注意 ，p 中 x 的 相对 地 址 和 9 中 x 的 相对 地 址 是 不 同 


为 方便 起 见 ， 记 录 类 型 将 使 用 一 个 专用 的 符号 表 ， 对 它们 的 各 个 字 
段 的 类 型 和 相对 地 址 进行 编码 。 记 录 类 型 形 如 record (t) ， 其 中 record 
是 类 型 构造 算 子 ，t 是 一 个 从 号 表 对 象 ， 它 保存 了 有 关 该 记录 类 型 的 各 
个 字段 的 信息 。 


图 6-18 中 的 翻译 方案 包含 一 个 产生 式 ， 该 产生 式 将 加 入 到 图 6-15 中 
天 于 工 的 产生 式 中 。 这 个 产生 式 有 两 个 语义 动作 。 在 D 之 前 谋 入 的 动作 
首先 保存 top 指 同 的 已 有 符号 表 ， 然 后 让 top 指 同 新 的 符号 表 。 该 动作 还 
保存 了 当前 offset 值 ， 并 将 offset 重 置 为 0。D 生 成 的 声明 会 使 类 型 和 相对 
地 址 被 保存 到 新 的 符号 表 中 。D 之 后 的 语义 动作 使 用 top 创 建 一 个 记录 类 
型 ， 然 后 恢复 早先 保存 好 的 符 写 表 和 偏 移 值 。 




















T 一 record'{” { Env.push(top); top = new Env!(); 
Stack.push( offset); offset = 0; } 


万 个 { T.type = record(top); T.width = offset: 
top = Env.pop(); offset = Stack.pop(); } 





图 6-18 ”处 理 记录 中 的 字段 名 


为 了 使 翻译 方案 更 加 具体 ， 图 6-18 中 的 动作 给 出 了 某 个 实现 的 伪 代 
码 。 令 Env 类 实现 符号 表 。 对 Env.push (top) 的 调用 将 top 所 指 的 当前 符 
号 表 压 入 一 个 栈 中 。 然 后 ， 变 量 top 被 设置 为 指 癌 一 个 新 的 符号 表 。 类 
似 的 ，offset 被 推 入 名 为 Stack 的 栈 中 ，offset 变 量 被 重 置 为 0。 


在 D 中 的 声明 被 翻译 之 后 ， 符 号 表 top 保 存 了 这 个 记录 中 所 有 字段 的 
类 型 和 相对 地 址 。 而 且 ，offset 还 给 出 了 存放 所 有 字段 所 需 的 存储 空 
间 。 第 二 个 动作 将 Ttype 设 为 record (top) ， 并 将 T.width 设 为 offset。 然 
后 ， 变 量 top 和 offset 将 被 恢复 为 原先 被 压 入 栈 中 的 值 ， 以 完成 这 个 记录 
类 型 的 翻译 。 








有 关 记 录 类 型 存储 方式 的 讨论 还 可 以 被 推广 到 类 ， 因 为 我 们 无 需 为 
类 中 的 方法 保留 存储 空间 。 见 练习 6.3.2。 


6.3.7 ”6.3 节 的 练习 


练习 6.3.1: 确定 下 列 声明 序列 中 各 个 标识 符 的 类 型 和 相对 地 址 。 


float x; 
record { float x; float yi 上 p; 
record { int tag; float x; float y; } q; 





! 练习 6.3.2: 将 图 6-18 对 字段 名 的 处 理 方法 扩展 到 类 和 单 继承 的 类 
层次 结构 。 


1) 给 出 类 Env 的 一 个 实现 。 该 实现 文 持 符 号 表 链 ， 使 得 子 类 可 以 重 
定义 一 个 字段 名 ， 也 可 以 直接 引用 茶 个 超 类 中 的 字段 名 。 


2) 给 出 一 个 翻译 方案 ， 该 方案 能 够 为 类 中 的 字段 分 配 连 续 的 数据 
区 域 ， 这 些 字段 中 包含 继承 而 来 的 域 。 继 承 而 来 的 字段 必须 保持 在 对 超 
类 进行 存储 分 配 时 获得 的 相对 地 址 。 











6.4 表达 却 的 翻 详 


本 章 剩 下 的 部 分 将 介绍 在 翻译 表达 式 和 语句 时 出 现 的 问题 。 在 本 市 
中 ， 我 们 首先 考虑 从 表达 式 到 三 地 址 代码 的 翻译 。 一 个 带 有 多 个 运算 符 
的 表达 式 〈 比 如 atb*c) 将 被 翻译 成 为 每 条 指令 最 多 包含 一 个 运算 符 的 
指令 序列 。 一 个 数组 引用 A [i]」 Ljj] 将 被 扩展 成 一 个 计算 该 引用 的 地 
址 的 三 地 址 指令 序列 。 我 们 将 在 6.5 节 中 考虑 表达 式 的 类 型 检查 ， 并 在 
6.6 市 中 介绍 如 何 使 用 布尔 表达 式 来 处 理 程 序 的 控制 流 。 








6.4.1 表达 式 中 的 运算 


图 6-19 中 的 语法 制导 定义 使 用 S$ 的 属性 code 以 及 表达 式 E 的 属性 addr 
和 code， 为 一 个 赋值 语句 Ss 生成 三 地 址 代码 。 属 性 S.code 和 E.code 分 别 表 
示 S 和 E 对 应 的 三 地 址 代码 。 属 性 E.addr 则 表示 存放 E 的 值 的 地 址 。 回 忆 
一 下 6.2.1 节 ， 一 个 地 址 可 以 是 变量 名 字 、 常 量 或 编译 器 产生 的 临时 量 。 


产生 式 语义 规则 
S.code = E.code || 
gen(top.get(id.lexeme) '=" E.add7) 











E.addr = new Temp() 
E.code = Ei.code || E2.code || 
gen(E.addr '=’ Ei.addr 十 EF2.addr) 


E.addr = new Temp() 
E.code = Ei.code || 
gen(E.addr 一 ‘minus’ Ei.add7) 


E.addr = Ei.addr 
E.code = Ei.code 


E.addr = top.get(id.lereme) 
E.code ="" 


图 6-19 ”表达 式 的 三 地 址 代码 





考虑 图 6-19 中 语法 制导 定义 的 最 后 一 个 产生 式 E~i。 知 表达 式 只 
是 一 个 标识 符 ， 比 如 说 x， 那 么 x 本 时 就 保存 了 这 个 表达 式 的 值 。 这 个 产 
生 式 对 应 的 语义 规则 把 E.addr 定 义 为 指 癌 该 id 的 实例 对 应 的 符号 表 条 目 
的 指针 。 令 top 表 示 当 前 的 符号 表 。 当 函数 top.get 被 应 用 于 id 的 这 个 实例 
ee 它 返回 对 应 的 符号 表 条 目 。E.code 被 设置 为 
全 中 。 


当 规 则 为 E~ 〈E1i) 时 ， 对 E 的 翻译 与 对 子 表达 式 Ei 的 翻译 相同 。 
此 ，E.addr 等 于 El.addr，E.code 等 于 Ei.code。 





图 6-19 中 的 运算 符 + 和 单 目 -是 典型 语言 中 的 运算 符 的 代表 。 
EEi+tE; 的 语义 规则 生成 了 根据 E1 和 E, 的 值 计 算 E 的 值 的 代码 。 计 算得 
到 的 值 存放 在 新 生成 的 临时 变量 中 。 如 果 E1 的 值 计算 后 补 放 入 Ei.addr， 
E, 的 值 被 放 到 FE.addr 中 ， 那 么 E+E5 就 可 以 被 翻译 为 t=E1.addr+E>.addr， 
其 中 t 是 一 个 新 的 临时 变量 。E.addr 被 设 为 {。 连 续 执 行 new Temp() 会 产生 
一 系列 互 不 相同 的 临时 变量 4，tp，.…。 


为 方便 起 见 ， 我 们 使 用 记号 gen (x'='y+'z) 来 表示 三 地 址 指令 
x=y+z。 当 被 传递 给 gen 时 ， 变 量 x、y、z 的 位 置 上 出 现 的 表达 式 将 首先 
被 求 值 ， 而 像 '=' 这 样 的 引号 内 的 字符 串 则 按照 字面 值 传递 名 。 其 他 的 三 
地 址 指令 的 生成 方法 类 似 ， 也 是 将 gen 作 用 于 表达 式 和 字符 串 的 组 合 。 


当 我 们 翻译 产生 式 E -Ei1+E2 时 ， 图 6-19 中 的 语义 规则 首先 将 Ej.code 
和 E,.code 连 接 起 来 ， 然 后 再 加 上 一 条 将 El 和 FE, 的 值 相 加 的 指令 ， 从 而 生 
成 E.code。 新 增加 的 这 条 指令 将 求 和 的 结果 放 入 一 个 为 E 生 成 的 临时 变 
量 中 ， 用 E.addr 表 示 。 


产生 式 E -Ei 的 翻译 过 程 与 此 类 似 。 这 个 规则 首先 为 E 创 建 一 个 新 
的 临时 变量 ， 并 生成 一 条 指令 来 执行 单 目 -运算 。 


最 终 ， 产 生 式 Sid =E; 所 生成 的 指令 将 表达 式 E 的 值 赋 给 标识 
符 id。 和 规则 Eid 中 一 样 ， 这 个 产生 式 的 语义 规则 使 用 函数 top.get 来 确 
定 id 所 代表 的 标识 符 的 地 址 。S.code 包 含 的 指令 首先 计算 E 的 值 并 将 其 保 
存 到 由 E.addr 指 定 的 地 址 中 ， 然 后 再 将 这 个 值 赋 给 这 个 id 实 例 的 地 址 
top.get (id.lexeme) 。 








图 6-19 中 的 语法 制导 定义 将 赋值 语句 a=b+-c; 翻译 成 如 下 的 三 


引 序列 : 

tl1 = minus c 
t2 = b+tl 
aa = 了 七? 


6.4.2 ” 增 量 翻译 


code 属 性 可 能 是 很 长 的 字符 串 ， 因 此 就 像 5.5.2 节 中 讨论 的 那样 ， 它 
们 通常 是 用 增 量 的 方式 生成 的 。 因 此 ， 我 们 不 会 像 图 6-19 所 示 的 那样 构 
造 E.code， 我 们 可 以 设法 像 图 6-20 中 那样 只 生成 新 的 三 地 址 指令 。 在 这 
个 增 量 方式 中 ，gen 不 仅 要 构造 出 一 个 新 的 三 地 址 指令 ， 还 要 将 它 添加 
到 至 今 为 止 已 生成 的 指令 序列 之 后 。 指 令 序列 可 以 暂时 放 在 内 存 中 以 便 
进一步 处 理 ， 也 可 以 增 量 地 输出 。 


图 6-20 中 的 翻译 方案 和 图 6-19 中 的 语法 制导 定义 产生 相同 的 代码 。 
采用 增 量 方式 时 不 需 再 用 到 code 属 性 ， 因 为 对 gen 的 连续 调用 将 生成 一 
个 指令 序列 。 例 如 ， 图 6-20 中 对 应 于 EE1+E5 的 语义 规则 直接 调用 gen 
产生 一 条 加 法 指令 。 在 此 之 前 ， 翻 译 方案 已 经 生成 了 计算 E1 的 值 并 放 入 
Ei.addr、 计 算 E, 的 值 并 放 入 E>.addr 的 指令 序列 。 





{ gen( top.get(id.lereme) ‘=’ BE.add7); } 


{ E.addr = new Temp/(); 
gen(E.addr 一 Ei.addr '+’ E>.add’7); } 


{ E.addr = new Ternp (); 


gen( BE.addr ‘=’ ‘minus’ Ei.addr); } 


{ E.addr = Ei.addr; } 


{ 五 .addr = top.get(id.lereme); } 





图 6-20 ” 增 量 生成 表达 式 的 三 地 址 代码 


图 6-20 的 方法 也 可 以 用 来 构造 语法 树 ， 对 应 于 EE1+E, 的 语义 动作 
使 用 构造 算 子 生成 新 的 结 点 。 规 则 如 下 : 


EEi+E, {E.addr=new Node (+', Eli.addr, E>.addr) ; } 





这 里 ， 属 性 addr 表 示 的 是 一 个 结 点 的 地 址 ， 而 不 是 某 个 变量 或 常量 。 





6.4.3 ”数组 元 素 的 寻 址 


将 数组 元 素 存储 在 一 块 连续 的 存储 空间 里 就 可 以 快速 地 访问 它们 。 
在 C 和 Java 中 ， 一 个 具有 n 个 元 系 的 数组 中 的 元 素 契 按照 0，1， ... nN-1 
0 假设 每 个 数组 元 素 的 宽度 是 w， 那 么 数组 A 的 第 i 个 元 素 的 开始 
地 二 








basetixw (6.2) 


其 中 base 是 分 配给 数组 A 的 内 存 块 的 相对 地 址 。 也 就 是 说 ，base 是 
A [0j] 的 相对 地 址 。 


式 〈6.2) 可 以 被 推广 到 C 语 言 中 的 二 维 或 多 维 数 组 上 。 对 于 二 维 数 
组 ， 我 们 在 C 中 用 A Lii」 [i,」 来 表示 第 ij 行 的 第 i 个 元 素 。 假 设 一 行 的 
宽度 是 wj， 同 一 行 中 每 个 元 素 的 宽度 是 w。A [ii]」 [Lis] 的 相对 地 址 
可 以 使 用 下 面 的 公式 计算 


base+ijxwi+izxw> (6.3) 


对 于 k 维 数组 ， 相 应 的 公式 为 


baseti xXwitipXW2+...+i XW (6.4) 








其 中 ，w;(1<j<k)〉 是 对 式 (6.3) 中 的 w1 和 w, 的 推广 。 


另 一 种 计算 数组 引用 的 相对 地 址 的 方法 是 根据 第 j 维 上 的 数组 元 素 
的 个 数 mn 和 该 数组 的 每 个 元 素 的 宽度 w=wk 进 行 计 算 。 在 二 维 数组 中 《 即 
k=2，w=w) ，A [ii]」 [Li] 的 地 址 为 








base+ (iixnst+iy) xw (6.5) 


对 于 k 维 数组 ， 下 列 公式 计算 得 到 的 地 址 和 公式 〈6.4) 所 得 到 的 地 址 相 
同 : 


baset+ (C (... ( 《ixno+ip?) xn3+ia) ...) xnk+i) Xxw (6.6) 


在 更 一 般 的 情况 下 ， 数 组 元 又 下 标 并 不 一 定 是 从 0 开始 的 。 在 一 个 一 维 
数组 中 ， 数 组 元 素 的 编号 方式 如 下 : low，low+1，...，high， 而 base 是 
A Llowj」 的 相对 地 址 。 计 算 A [ij 的 地 址 的 式 〈6.2) 就 变 成 ; 








base+ (i-low) xw (6.7) 


式 (6.2) 和 式 (6.7) 都 可 以 改写 成 ixw+c 的 形式 ， 其 中 的 子 表 达 式 
c=base-lowxw 可 以 在 编译 时 刻 预 先 计算 出 来 。 请 注意 ， 当 low 为 0 时 
c=base。 我 们 假定 c 被 存放 在 A 对 应 的 符号 表 条 目 中 ， 那 么 只 要 把 ixw 加 
到 c 上 束 可 以 计算 得 到 A [i] 的 相对 地 址 。 


编译 时 刻 的 预先 计算 同样 可 以 应 用 于 多 维 数 组 元 素 的 地 址 计算 ， 见 
练习 6.4.5。 然 而 ， 有 一 种 情况 下 我 们 不 能 使 用 编译 时 刻 预先 计算 的 拉 
术 : 当 数 组 大 小 是 动态 变化 的 时 候 。 如 果 我 们 在 编译 时 刻 无 法 知道 low 
和 high (或 者 它们 在 多 维 数组 情况 下 的 泛 化 〉 的 值 ， 我 们 残 无 法 提前 计 
算出 像 c 这 样 的 常量 。 因 此 在 程序 运行 时 ， 像 〈6.7) 这 样 的 公式 就 需要 
按照 公式 所 写 进行 求 值 。 


上 面 的 地 址 计算 是 基于 数组 的 按 行 存 放 方式 的 ，C 语 言 都 使 用 这 种 
数据 布局 方式 。 一 个 二 维 数组 通常 有 两 种 存储 方式 ， 即 按 行 存放 【一 行 
行 地 存放 ) 和 按 列 存放 【一 列 列 地 存放 ) 。 图 6-21 显 示 了 一 个 2x3 的 数 
组 A 的 两 种 存储 布局 方式 ， 图 6-21a 中 是 按 行 存 放 方 式 ， 图 6-21b 中 是 按 
列 存放 方式 。Fortran 系 列 语言 使 用 按 列 存放 方式 。 
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a) 按 行 存放 b) 按 列 存 放 
图 6-21 二 维 数组 的 存储 布局 


我 们 可 以 把 按 行 存放 策略 和 按 列 存放 策略 推广 到 多 维 数组 中 。 按 行 
存放 方式 的 推广 形式 按照 如 下 方式 来 存储 元 系 : 当 我 们 扫描 一 块 存储 区 
域 时 ， 束 像 汽 车 里 程 表 中 的 数字 一 样 ， 最 右边 的 下 标 变 化 最 为 频 紧 。 而 
按 列 存放 方式 则 被 推广 为 相反 的 布局 方式 ， 最 左边 的 下 标 变 化 最 频繁 。 








6.4.4 数组 引用 的 翻译 


为 数组 引用 生成 代码 时 要 解决 的 主要 问题 是 将 6.4.3 市 中 给 出 的 地 址 
计算 公式 和 数组 引用 的 文法 关联 起 来 。 令 非 终 结 得 写 L 生 成 一 个 数组 名 
字 再 加 上 一 个 下 标 表 达 式 的 序列 : 


L = LE] |id LE 


与 C 和 Java 中 一 样 ， 我 们 假定 数组 元 素 的 最 小 编号 是 0。 我 们 使 用 式 
(6.4) ， 基 于 宽度 来 计算 相对 地 址 ， 而 不 是 像 式 (6.6)〉 中 那样 使 用 元 
素 的 数量 来 计算 地 址 。 图 6-22 所 示 的 翻译 方案 为 带 有 数组 引用 的 表达 式 
生成 三 地 址 代码 。 它 包括 了 图 6-20 中 给 出 的 产生 式 和 语义 动作 ， 同 时 还 
包括 了 涉及 非 终 结 符号 L 的 产生 式 。 








{ gen( top.get(id.lereme) ‘=’ E.add7); } 


{ gen(L.array .base '[' L.addr | =’ E.addr); } 


{ E.addr = new Temyp(); 
gen(E.addr '=" Pi.addr '+’ E2.add7); } 


{ EB.addr = top.get(id.lereme); } 


{ E.addr = new Temp/(); 
gen(E.addr 一 L.array.base '[' L.addr |]'); } 


{ L.array = top.get(lid.lereme); 
L.type = L.array.type.elem; 
L.addr = new Temp(); 
gen(L.addr 一 E.addr '*' L.type.width); } 


{ L.array = Li.array; 
L.type = Li.type.elem; 
t= new Temp/(); 
L.addr = new Temyp (); 
gen(t 一 E.addr '*' L.type.width): 
gen(L.addr 一 Li.addr + +t); } 





图 6-22 ”处 理 数组 引用 的 语义 动作 
非 终 结 符号 L 有 三 个 综合 属性 : 


1) L.addr 指 示 一 个 临时 变量 。 这 个 临时 变量 将 被 用 于 累加 公式 
(6.4) 中 的 ixwj 项 ， 从 而 计算 数组 引用 的 偏 移 量 。 


2) L.array 是 一 个 指 问 数组 名 字 对 应 的 符号 表 条 目的 指针 。 在 分 析 
了 所 有 的 下 标 表 达 式 之 后 ， 访 数组 的 基地 址 ， 也 就 是 L.array.base， 被 用 
于 确定 一 个 数组 引用 的 实际 左 值 。 


3) L.type 是 L 生 成 的 子 数 组 的 类 型 。 对 于 任何 类 型 t， 我 们 假定 其 宽 
度 由 t.width 给 出 。 我 们 把 类 型 (而 不 是 冤 度 〉 作 为 属性 ， 是 因为 无 论 如 
何 类 型 检查 总 是 需要 这 个 类 型 信息 。 对 于 任何 数组 类 型 t， 假 设 t.elem 给 
出 了 其 数组 元 系 的 类 型 。 


产生 式 S -id=E; 代表 一 个 对 非 数 组 变量 的 赋值 语句 ， 它 按照 通常 








的 方法 进行 处 理 。S-L=E; 的 语义 动作 产生 了 一 个 带 下 标的 复制 指 

令 ， 它 将 表达 式 E 的 值 存 放 到 数组 引用 L 所 指 的 内 存 位 置 。 回 顾 一 下 ， 
属性 L.array 给 出 了 数组 的 符号 表 条 目 。 数 组 的 基地 址 〈 即 0 号 元 素 的 地 
址 ) 由 EL.array.base 给 出 。 属 性 L.addr 表 示 一 个 临时 变量 ， 它 保存 了 EL 生成 
的 数组 引用 的 偏 移 量 。 因 此 ， 这 个 数组 引用 的 位 置 是 

L.array.base [L.addr」 。 这 个 指令 将 地 址 E.addr 中 的 右 值 放 入 工 的 内 存 位 
置 中 。 





产生 式 忆 ~ Ei+E> 和 E 一 id 与 以 前 相同 。 新 的 产生 式 丰 - 工 的 语义 动作 
生成 的 代码 将 所 指 位 置 上 的 值 复 制 到 一 个 新 的 临时 变量 中 。 和 前 面 对 
产生 式 S-L=E; 的 讨论 一 样 ，L 所 指 的 地 址 就 是 
L.array.base [L.addr] 。 其 中 ， 属 性 L.array 仍 然 给 出 了 数组 名 ， 
L.array.base 给 出 了 数组 的 基地 址 。 属 性 L.addr 表 示 保 存 偏 移 量 的 临时 变 
量 。 数 组 引用 的 代码 将 存放 在 由 基地 址 和 偏 移 量 给 出 的 位 置 中 的 右 值 放 
入 E.addr 所 指 的 临时 变量 中 。 


TT 令 a 表 示 一 个 2x3 的 整数 数组 ，c、i、j 都 是 整数 。 那 么 a 的 类 型 
融和 是 aray (2，array (3，integer) ) 。 假 定 一 个 整数 的 宽度 为 4， 那 么 a 
的 类 型 的 客 度 就 是 24。a [i] 的 类 型 是 array (3，integer) ， 宽 度 w1 为 
12。a [i] [j] 的 类 型 是 整 型 。 

图 6-23 给 出 了 表达 式 cta [i] [j] 的 注释 语法 分 析 树 。 该 表达 式 被 
翻译 成 图 6-24 中 给 出 的 三 地 址 代码 序列 。 这 里 我 们 仍然 使 用 每 个 标识 符 
的 名 字 来 表示 它们 的 符号 表 条 目 。 











E.addr = ts 
| 


十 
E.addr=c E.addr = ts 
| 
C L.array = a 
L.type = integer 
L.addr = ts 
L.array = a / ee 
L.type = array(3, integer) I E.addr = j ] 
L.addr = ti | 
A 才 sa j 
[ E.addr= i 


a.type 
= array(2, array(3, integer)) | 
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图 6-23 c+ta [i] [j] 的 注释 语法 分 析 树 





图 6-24 表达 式 cta [i] [j] 的 三 地 址 代码 


6.4.5 “6.4 节 的 练习 





练习 6.4.1: 向 图 6-19 的 翻译 方案 中 加 入 对 应 于 下 列 产生 式 的 规则 : 


1) EE*E, 


2) E+E: ( 单 目 加 ) 
练习 6.4.2: 使 用 图 6-20 中 的 增 量 式 翻 译 方案 重复 练习 6.4.1。 
练习 6.4.3: 使 用 图 6-22 所 示 的 翻译 方案 来 翻译 下 列 赋 值 语 句 : 
1) x = a[i] + b[j] 
2) x = a[i][j] + b[i][j] 
13) x = atbri ci] retrl 


! 练习 6.4.4: 修改 图 6-22 中 的 翻译 方案 ， 使 之 适合 Fortran 风 格 的 数 
组 引用 ， 也 就 是 说 ，n 维 数组 的 引用 为 id [El,，E, ...，E,] 。 


练习 6.4.5: 将 公式 (6.7) 推广 到 多 维 数组 上 ， 并 指出 哪些 值 可 以 
被 存放 到 符号 表 中 并 用 来 计算 俩 移 量 。 考 虑 下 列 情况 : 


1) 一 个 二 维 数组 A， 按 行 存放 。 第 一 维 的 下 标 从 1 到 phi， 第 二 维 的 
下 标 从 1 到 hz。 单个 数组 元 际 的 宽度 为 w。 


2) 其 他 条 件 和 1 相同 ， 但 是 采用 按 列 存放 方式 。 


! 3) 一 个 k 维 的 数组 A， 按 行 存 放 ， 元 素 宽度 为 w， 第 j 维 的 下 标 从 
] 到 hi;。 
] ] 


! 4) 其 他 条 件 和 3 相同 ， 但 是 采用 按 列 存放 方式 。 

练习 6.4.6: 一 个 按 行 存放 的 整数 数组 A [i，jj 的 下 标 i 的 范围 为 1 一 
10， 下 标 j 的 范围 为 1 一 20。 每 个 整数 占 4 个 字 节 。 假 设 数组 A 从 0 字 节 开 
始 存 放 ， 请 给 出 下 列 元 素 的 位 置 : 

1 A 4 | -2 A100] -YA [3 | 

练习 6.4.7: 假定 A 是 按 列 存放 的 ， 重 复 练习 6.4.6。 


练习 6.4.8: 一 个 按 行 存放 的 实数 型 数组 A [i，j，kj 的 下 标的 范围 
为 1 一 4， 下 标 j 的 范围 为 0 一 4， 且 下 标 k 的 范围 为 5 一 10。 每 个 实数 占 8 个 











字 节 。 假 设 数 组 A 从 0 字 节 开始 存放 。 计 算 下 列 元 素 的 位 置 。 


Td | 





练习 6.4.9: 假定 A 是 按 列 存放 的 ， 重 复 练习 6.4.8。 


和 从 写 化 表示 的 类 型 宽度 


中 间 代 码 应 该 相对 独立 于 目标 机 器 ， 这 样 当 代码 生成 器 被 答 换 为 
对 应 于 另 一 台 机 器 的 代码 生成 喜 时 ， 优 化 右 不 需要 做 出 太 大 的 改变 。 
然而 ， 正 如 我 们 刚刚 描述 的 类 型 宽度 计算 方法 所 示 ， 关 于 基本 类型 的 


信息 被 融合 到 了 这 个 翻译 方案 中 。 例 如 ， 例 6.12 中 假定 每 个 整数 数组 
的 元 素 占 4 个 字 节 。 一 些 中 间 人 代码， 如 Pascal 的 P-code， 让 代码 生成 右 
来 填写 数组 元 素 的 大 小 ， 因 此 中 间 代 码 独 立 于 机 器 的 字 长 。 只 要 用 一 
个 符号 常量 来 代替 翻译 方案 中 的 〈 作 为 整数 类 型 宽度 的 ) 4， 我 们 就 
可 以 在 我 们 的 翻译 方案 中 做 到 这 一 点 。 





6.5 ”类 型 检查 


为 了 进行 类 型 检查 type checking) ， 编 译 器 需要 给 源 程序 的 每 一 
个 组 成 部 分 赋予 一 个 类 型 表达 式 。 然 后 ， 编 译 占 要 确定 这 些 类 型 表达 式 
是 个 满足 一 组 逻辑 规则 。 这 些 规则 称 为 源 语言 的 类 型 系统 〈type 
System ) 。 


类 型 检查 具有 发 现 程序 中 的 错误 的 潜能 。 原 则 上 ， 如 果 目 标 代 码 在 
保存 元 素 值 的 同时 保存 了 元 素 类 型 的 信息 ， 那 么 任何 检查 都 可 以 动态 地 
进行 。 一 个 健全 (sound) 的 类 型 系统 可 以 消除 对 动态 类 型 错误 检查 的 
需要 ， 因 为 它 可 以 帮助 我 们 豆 态 地 确定 这 些 错误 不 会 在 目标 程序 运行 的 
时 候 发 生 。 如 果 编 译 咒 可 以 保证 它 接 受 的 程序 在 运行 时 刻 不 会 发 生 类 型 
昔 误 ， 那 么 该 语言 的 这 个 实现 融和 被 称 为 强 类 型 的 。 


除了 用 于 编译 ， 类 型 检查 的 思想 还 可 以 用 于 提高 系统 的 安全 性 ， 使 
得 人 们 安全 地 导入 和 执行 软件 模块 。Java 程 序 被 编译 成 为 机 器 无 关 的 字 
节 码 ， 在 字 节 码 中 包含 了 有 关 字 节 码 中 的 运算 的 详细 类 型 信息 。 导 入 的 
0 
意 攻击 。 




















6.5.1 ”类 型 检查 规则 


类 型 检查 有 两 种 形式 : 综合 和 推导 。 类 型 综合 〈type synthesis) 根 
据 子 表达 式 的 类 型 构造 出 表达 式 的 类 型 。 它 要 求 名 字 先 声明 再 使 用 。 表 
达 式 Ei+E, 的 类 型 是 根据 EJ 和 E, 的 类 型 定义 的 。 一 个 典型 的 类 型 综合 规 
则 有 具有 如 下 形式 : 
站 /的 类 型 为 st 且 x 的 类 型 为， 
then 表达 式 f(x) 的 类 型 为 t 
这 里 ，f 和 lx 表示 表达 式 ， 而 st 表示 从 s 到 t 的 函数 。 这 个 针对 单 参 数 函 数 


的 规则 可 以 推广 到 带 有 多 个 参数 的 函数 。 只 要 稍 做 修改 ， 规 则 (6.8) 
就 可 以 用 于 Ei+E*， 我 们 只 需要 把 它 看 作 一 个 函数 应 用 add (El1，E>) 就 


(6.8) 


可 以 了 回 ， 


类 型 推导 (type inference) 根据 一 个 语言 结构 的 使 用 方式 来 确定 该 
结构 的 类 型 。 先 看 一 下 6.5.4 节 中 的 例子 ， 令 nul] 是 一 个 测试 列表 是 否 关 
空 的 函数 。 那 么 ， 根 据 这 个 函数 的 使 用 null (x) ， 我 们 可 以 指出 x 必 须 
是 一 个 列表 类 型 。 列 表 x 中 的 元 素 类 型 是 未 知 的 ， 我 们 所 知道 的 全 部 信 
县 是 : x 是 一 个 列表 类 型 ， 其 元 素 类 型 当前 未 知 。 


代表 类 型 表达 式 的 变量 使 得 我 们 可 以 考虑 未 知 类 型 。 我 们 可 以 用 硕 
首 字 母 ag、B 等 作为 类 型 表达 式 中 的 类 型 变量 。 


一 个 典型 的 类 型 推导 规则 具有 下 面 的 形式 : 


证 所 zx) 是 一 个 表达 式 ， (6.9) 
then 对 某 些 a 和 8B, 了 的 类 型 为 a-6 且 xx 的 类 型 为 a 


在 类 似 ML 这 样 的 语言 中 需要 进行 类 型 推导 。ML 语 言 会 检 俘 类 型 ， 
但 是 不 需要 对 名 字 进 行 声明 。 


在 本 节 中 ， 我 们 考虑 表达 式 的 类 型 检查 。 检 查 语 句 的 规则 和 检查 表 
达 式 类 型 的 规则 类 似 。 例 如 ， 我 们 可 以 把 条 件 语句 “if (E) S$; ”看 作 是 
对 E 和 S 应 用 if 函数 。 令 特殊 类 型 void 表示 没有 值 的 类 型 ， 那 么 ii 函数 将 被 
应 用 在 一 个 布尔 型 和 一 个 void 型 的 对 象 上 。 此 函数 的 结果 类 型 是 void。 




















6.5.2 ”类 型 转换 


考虑 类 似 于 x+i 的 表达 式 ， 其 中 x 是 序 点 数 类 型 而 征 整 型 。 因 为 整数 
和 序 点 数 在 计算 机 中 有 不 同 的 表示 形式 ， 而 且 使 用 不 同 的 机 器 指令 来 完 
成 整数 和 浮 点 数 运算 。 编 译 圳 需要 把 + 的 茶 个 运算 分 量 进行 转换 ， 以 保 
证 在 进行 加 法 运算 时 两 个 运算 分 量具 有 相同 的 类 型 。 

假定 在 必要 的 时 候 可 以 使 用 一 个 单 目 运算 符 〈float ) 将 整数 转换 


例如 ， 整 数 2 在 表达 式 2*3.14 对 应 的 代码 中 被 转换 成 浮 点 








tl = (float) 2 
t2 = tl * 3.14 


我 们 可 以 扩展 这 样 例子 ， 考 虑 运算 符 的 整 型 和 浮 点 型 版 本 。 比 
如 ，int* 表 示 作 用 于 整 型 运算 分 量 的 运算 符 ， 而 float* 表 示 作 用 于 浮 点 
型 运算 分 量 的 运算 符 。 

我 们 将 扩展 6.4.2 节 中 的 用 于 表达 式 翻 译 的 翻译 方案 ， 以 说 明 如 何 进 
行 类 型 综合 。 我 们 引入 男 一 个 属性 E.type， 该 属性 的 值 可 以 是 integer 或 
float。 和 EE1+tEs; 相 关 的 规则 可 用 如 下 的 伪 代 码 给 出 : 














if ( Ei.type = integer and bE,.type = integer ) E.type = integer; 
else if ( Ei.type = float and EF,.type = integer ) .…- 


随 着 需要 转换 的 类 型 的 增多 ， 需 要 处 理 的 不 同情 况 也 急剧 增多 。 
此 ， 在 处 理 大 量 的 类 型 时 ， 精 心 组 织 用 于 类 型 转换 的 语义 动作 就 变 得 非 
常 重要 。 


不 同 语言 具有 不 同 的 类 型 转换 规则 。 图 6-25 中 的 Java 的 转换 规则 区 
分 了 拓宽 (widening) 转换 和 窒 化 (narrowing) 转换 。 拓 宽 转 换 可 以 保 
持原 有 的 信息 ， 而 罕 化 转换 则 可 能 丢失 信息 。 拓 宽 规 则 通过 图 6-25a 中 
的 层次 结构 给 出 : 在 该 层次 结构 中 位 于 较 低层 的 类 型 可 以 被 拓宽 为 较 高 
层 的 类 型 。 因 此 ，char 类 型 可 以 被 拓宽 为 int 型 和 float 型 ， 但 是 不 可 以 被 
拓宽 为 Short 类 型 。 军 化 转换 的 规则 如 图 6-25b 所 示 : 如 果 存 在 一 条 从 Ss 到 { 
的 路 径 ， 则 可 以 将 类 型 s 罕 化 为 类 型 {。 可 以 看 出 ，char、 short、byte 之 
间 可 以 两 两 相互 转换 。 




















double double 


| 


float fioat 
long long 
int int 
Sa 
4 
short char char 下 一 short 下 一 一 byte 
byte 
a) 拓宽 类 型 转换 b) 罕 化 类 型 转换 


图 6-25 Java 中 简单 类 型 的 转换 


如 打 类 型 转换 由 编译 费 目 动 完 成 ， 那 么 这 样 的 转换 就 称 为 隐 式 转 
换 。 隐 式 转换 也 称 为 自动 类 型 转换 (coercion〉 。 在 很 多 语言 中 ， 自 动 
类 型 转换 仅仅 限于 拓宽 转换 。 如 果 程 序 员 必 须 写 出 茶 些 代码 来 引发 类 型 
转换 运算 ， 那 么 这 个 转换 就 称 为 显 式 的 。 显 式 转换 也 称 为 强制 类 型 转换 


(cast) 。 
检查 EEi+E; 的 语义 动作 使 用 了 两 个 函数 : 


1) max 〈t，b) 接受 4 和 b 两 个 类 型 的 参数 ， 并 返回 拓宽 层次 结构 
中 这 两 个 类 型 中 的 最 大 者 (或 者 最 小 上 界 ) 。 如 果 ti 或 bb 之 一 没有 出 现 
在 这 个 层次 结构 中 ， 比 如 有 个 类 型 是 数组 类 型 或 指针 类 型 ， 那 么 该 函数 
返回 一 个 错误 信息 。 


2) 如 果 需 要 将 类 型 为 t 的 地 址 a 中 的 内 容 转换 成 w 类 型 的 值 ， 则 函数 
widen (a，t，w) 将 生成 类 型 转换 的 代码 。 如 果 t 和 w 是 相同 的 类 型 ， 则 
该 函数 返回 a 本 映 。 否 则 ， 它 会 生成 一 条 指令 来 完成 转换 工作 并 将 转换 
结果 放置 到 临时 变量 temp 中 。 这 个 临时 变量 将 作为 结果 返回 。 函 数 
widen 的 伪 代 码 如 图 6-26 所 示 ， 这 里 假设 只 有 integer 和 float 两 种 类 型 。 














Addr widen( Addr a, Type t, Type w) 
f(t=w) return a; 
else if ( t= integer and w = float ) { 
temp = new Temp\(); 


gen(temp '=’ ‘(float)’ a); 
return temp; 
| 


else error: 





图 6-26 widen 号 数 的 伪 代 码 


图 6-27 中 EE1+tE5 的 语义 动作 说 明了 如 何 把 类 型 转换 加 入 到 图 6-20 
所 示 的 翻译 表达 式 的 方案 中 。 在 这 个 语义 动作 中 ， 如 果 E; 的 类 型 不 需要 
被 转换 成 E 的 类 型 ， 那 么 临时 变量 ai; 就 是 Ej.addr。 如 果 需 要 进行 这 样 的 
转换 ， 则 aj 就 是 widen 函 数 返回 的 一 个 新 的 临时 变量 。 类 似 地 ，a, 可 能 是 
E>.addr， 也 可 能 是 一 个 新 临时 变量 ， 用 于 存放 转换 后 的 E, 的 值 。 如 果 两 
个 变量 都 是 整 型 或 者 都 是 浮 点 型 ， 就 不 需要 进行 任何 转换 。 我 们 会 发 
现 ， 将 两 个 不 同类 型 的 值 相 加 的 唯一 方法 是 把 它们 都 转换 成 为 第 三 种 类 


型 。 








已 一 机 + 万 {E.type = maz(bi.type, Ez.type); 
al = widen(Ei.addr, Ei.type, E.type); 


a» = widen(E».addr, E».type, E.type): 
E.addr = new Temp/(); 
gen(E.addr '=’ al 十 a2); } 





图 6-27 在 表达 式 求 值 中 引入 类 型 转换 
6.5.3 ”函数 和 运算 符 的 重 载 


依据 符号 所 在 的 上 下 文 不 同 ， 被 重 载 (overloaded) 的 符号 会 有 不 


同 的 含义 。 如 果 能 够 为 一 个 名 字 的 每 次 出 现 确 定 其 唯一 的 含义 ， 该 名 字 
的 重 载 问题 束 得 到 了 解决 。 在 本 节 中 ， 我 们 仅 考 虑 那些 只 需要 仁 看 函数 
参数 就 能 解决 的 函数 重 载 。Java 中 的 重 载 即 是 如 此 。 


根据 其 运算 分 量 的 类 型 ，Java 中 的 + 运算 符 既 可 以 表示 字符 串 
妆 运 算 ， 也 可 以 表示 加 法 和 运算。 用户 自 定义 的 函数 同样 可 以 重 载 ， 
列 如 


void err() { :... } 
void err(String s) { ... } 


请 注意 ， 我 们 可 以 根据 函数 err 的 参数 来 确定 选择 该 函数 的 哪 一 个 版 本 。 

以 下 是 针对 重 载 函 数 的 类 型 综合 规则 : 

证 f 可 能 的 类 型 为 st (1sisn) ， 其 中 ，sizs， (i#j) 

and x 的 类 型 为 s. (1<k<n) “(6.10) 

then 表 达 式 f(x〉 的 类 型 为 tl 

6.1.2 市 中 的 值 编码 方法 同样 可 以 用 于 类 型 表达 式 ， 以 便 根 据 参 数 类 
型 高 效 地 解决 重 载 问题 。 在 表示 类 型 表达 式 的 一 个 DAG 上 ， 我 们 给 每 个 
结 点 赋予 一 个 被 称 为 值 编码 的 整数 序号 。 使 用 算法 6.3， 我 们 可 以 构造 
出 每 个 结 点 的 范 型 ， 该 范 型 由 该 结 点 的 标号 及 其 从 左 到 右 的 子 结 点 的 值 
编码 组 成 。 一 个 函数 的 范 型 由 其 函数 名 和 它 的 参数 的 类 型 组 成 。 根 据 函 
数 的 参数 类 型 解决 重 载 的 问题 就 等 价 于 基于 范 型 解决 重 载 的 问题 。 

仅仅 通过 和 奉 看 一 个 函数 的 参数 类 型 不 一 定 能 够 解决 重 载 问题 。 在 
Ada 中 ， 一 个 子 表 达 式 会 有 一 组 可 能 的 类 型 ， 而 不 是 只 有 一 个 确定 的 类 


型 。 它 所 在 的 上 下 文 必 须 提 供 足 够 的 信息 来 缩小 可 选 范围 ， 最 终 得 到 唯 
一 的 可 选 类 型 〈 见 练习 6.5.2) 。 


6.5.4 ”类 型 推导 和 多 态 函 数 





类 型 推导 常用 于 像 ML 这 样 的 语言 。ML 是 一 个 强 类 型 语言 ， 但 是 它 


不 要 求 名 字 在 使 用 前 先进 行 声明 。 类 型 推导 保证 了 名 字 使 用 的 一 致 性 。 


术语 “多 态 ” 指 的 是 任何 可 以 在 不 同 的 参数 类 型 上 运行 的 代码 片段 。 
在 本 节 中 ， 我 们 考虑 参数 多 态 (parametric polymorphism) ， 这 种 多 态 
通过 参数 和 类 型 变量 来 刻 划 。 我 们 使 用 图 6- 28 中 的 ML 程序 作为 一 个 贯 
罕 本 节 的 例子 。 该 程序 定义 了 一 个 函数 length。 孙 数 length 的 类 型 可 以 摘 
法 入 “对 于 任何 类 型 qg，length 函 数 将 元 素 类 型 为 a 的 列表 映 冉 为 整 
型 志 





fun length(x) = 
if null(z) then 0 else length(tl(z))+1; 


图 6-28 计算 一 个 列表 长 度 的 ML 程序 


在 图 6-28 中 ， 关 键 字 fun 引 出 了 一 个 函数 定义 ， 被 定义 的 函数 
起 递归 的 。 这 个 程序 片段 定义 了 带 有 单个 参数 x 的 函数 length。 这 个 
函数 的 函数 体 包含 了 一 个 条 件 表达 式 。 预 定义 的 函数 null 测 试 一 个 列表 
征 否 为 空 。 预 定义 函数 UL 〈tail 的 缩写 ) 移 除 列表 中 的 第 一 个 元 素 ， 然 后 
返回 列表 的 余下 部 分 。 


函数 length 确 定 一 个 列表 x 的 长 度 ， 或 者 说 x 中 元 素 的 个 数 。 列 表 中 
的 所 有 元 系 必 须 具 有 相同 的 类 型 。 不 管 列 表 元 素 是 什么 类 型 ， 都 可 以 用 
length 函 数 来 求 出 这 个 列表 的 长 度 。 在 下 面 的 表达 式 中 ，length 被 应 用 到 
两 种 不 同类 型 的 列表 中 列表 元 素 用 “[” 和 “]” 括 起 来 〉: 


length 〈 [ "sun", "mon", "tue"] ) +lengh ( [10, 9, 8, 7]) 
(6.11) 


字符 电 列 表 的 长 度 为 3 整数 列表 的 长 度 为 4， 因 此 表达 式 (6.11) 的 值 








使 用 符号 Y 《〈 读 作 * 对 于 任意 类 型 >) 以 及 类 型 构造 算 子 list，length 
的 类 型 可 以 写作 : 


Valist (a) integer (6.12) 


符号 六 是 全 称 量 词 (wiversal guantifier) ， 它 所 作用 的 类 型 变量 称 为 受 





限 的 《bound) 。 受 限 变 量 可 以 被 任意 地 重 命 名 ， 但 是 需要 把 这 个 变量 
的 所 有 出 现 一 起 重 命 名 。 因 此 ， 类 型 表达 式 vB.list (PB) -integer 和 式 
(6.12) 等 价 。 其 中 带 有 六 符号 的 类 型 表达 式 被 称 为 “多 态 类 型 ”。 


在 多 态 函 数 的 各 次 应 用 中 ， 函 数 的 受 限 的 类 型 变量 可 以 表示 不 同 的 
类 型 。 在 类 型 检查 中 ， 每 次 使 用 多 态 类 型 时 ， 我 们 将 受 限 变量 葵 换 为 新 
的 变量 ， 并 去 挥 相应 的 全 称 量词 。 


下 一 个 例子 对 length 类 型 进行 了 非 正式 的 推导 ， 推 导 过 程 中 隐 式 地 
使 用 了 公式 6.9) 中 的 推导 规则 。 这 里 再 重复 一 下 : 


证 f 〈x) 是 一 个 表达 式 
then 对 某 些 a 和 B，f 的 类 型 为 a ,BPB 量 x 的 类 型 为 a 


图 6-29 中 的 抽象 语法 树 表示 图 6-28 中 对 length 的 定义 。 这 棵 树 
yJ 根 的 标号 为 fun， 它 表示 函数 定义 。 其 他 的 非 叶 子 结 点 可 以 看 作 是 函 
数 应 用 。 标 号 为 + 的 结 点 表示 对 两 个 子 结 点 应 用 运算 符 +。 类 似 的 ， 标 号 
为 站 的 结 点 表示 将 运算 符 站 应 用 于 它 的 三 个 子 结 点 组 成 的 三 元 组 上 (对 
于 类 型 检查 ， 究 竟 是 then 分 支 还 是 else 分 支 被 求 值 并 不 是 问题 。 它 们 不 
会 被 同时 计算 ) 。 

















length apply 
六 


图 6-29 ”图 6-28 中 的 函数 定义 对 应 的 抽象 语法 分 析 树 


我 们 可 以 根据 函数 length 的 函数 体 推导 出 它 的 类 型 。 从 左 到 右 考 虑 
标号 为 站 的 结 点 的 子 结 点 。 因 为 null 要 被 应 用 在 列表 上 ， 所 以 x 必须 是 一 





个 列表 。 我 们 使 用 变量 a 作为 列表 元 素 类 型 的 占 位 符 ， 也 就 是 说 ，x 的 类 
型 为 “a 的 列表 ”。 


如 果 null (x) 为 真 ， 则 length (x) 为 0。 因 此 ，length 的 类 型 一 定 
是 “从 a 的 列表 到 整 型 的 函数 ”"。 这 个 推导 得 到 的 类 型 和 在 else 分 文 
length (tl (X) ) +1 中 对 length 的 使 用 是 一 致 的 。 


因为 在 类 型 表达 式 中 可 能 出 现 变量 ， 所 以 我 们 必须 重新 审视 一 下 类 
型 等 价 的 概念 。 设 想 将 类 型 为 ss 的 Ei 应 用 到 类 型 为 的 E; 上 。 我 们 不 
能 简单 地 确定 s 和 t 是 否 等 价 ， 而 是 必须 将 这 两 种 类 型 * 合 一 "。 非 正式 地 
讲 ， 我 们 将 确定 是 否 可 以 将 类 型 变量 s 和 t 普 换 为 特定 的 类 型 表达 式 ， 从 
而 使 得 s 和 t 在 结构 上 等 价 。 


置换 (substitution〉 是 一 个 从 类 型 变量 到 类 型 表达 式 的 映射 。 我 们 
把 对 类 型 表达 式 t 中 的 变量 应 用 置换 $ 后 得 到 的 结果 写作 S 〈t) ， 详 细 信 
县 请 参见 “置换 、 实 例 和 合 一 ”部 分 。 两 个 类 型 表达 式 4 和 tb 可 以 合 一 
Cunify) 的 条 件 是 存在 某 个 置换 S$ 使 得 9S (0) =S (bb) 。 在 实践 中 ， 我 
们 感 兴趣 的 是 最 一 般 化 的 合 一 置换 ， 这 种 合 一 置换 对 表达 式 中 的 变量 施 
加 的 约束 最 少 。6.5.5 节 给 出 了 一 个 合 一 算法 。 


























置换 、 实 例 和 合 一 


如 果 t 是 一 个 类 型 表达 式 ， 且 S 是 一 个 置换 《〈 即 一 个 从 类 型 变量 到 
类 型 表达 式 的 映射 ) ， 那 么 我 们 用 S$ 〈t) 来 表示 将 t 中 的 每 个 类 型 变 
量 c 的 所 有 出 现 蔡 换 为 S (qa) 后 得 到 的 结果 。S (t) 被 称 为 { 的 一 个 实 
例 (instance) 。 例 如 ，list (Cinteger) 是 list Ca) 的 一 个 实例 ， 因 为 它 
是 将 list (a) 中 的 a 蔡 换 为 integer 后 的 结果 。 然 而 ， 请 注意 
integer float 不 是 a ca 的 实例 ， 因 为 置换 必须 将 a 的 所 有 出 现 蔡 换 为 
相同 的 类 型 表达 式 。 


对 于 类 型 表达 式 N 和 bb， 如 果 S (ti1) =S (t,) ， 那 么 置换 S 就 是 一 
个 合 一 替换 〈unifier) 。 如 果 对 于 0 和 tb 的 任何 合 一 替换 ， 比 如 说 S"， 
下 面 的 条 件 成 立 : 对 于 任意 的 tf，S' (t) 是 S(t) 的 一 个 实例 ， 那 么 
我 们 就 说 S 是 t/ 和 t, 的 最 一 般 化 的 合 一 蔡 换 (most general unifier) 。 换 
句 话说 ，S' 对 t 序 加 的 限制 比 S 施 加 的 限制 更 多 。 





| | 
多 态 函 数 的 类 型 推导 。 


输入: 一 个 由 一 系列 函数 定义 以 及 紧 跟 其 后 的 待 求 值 表达 式 组 成 的 
0 这 些 名 字 具 有 预定 义 的 
仿 类 型 。 


输出 : 推导 出 的 程序 中 名 字 的 类 型 。 


方法 : 为 简单 起 见 ， 我 们 只 考 感 一 元 函数 。 对 于 带 有 两 个 参数 的 函 
数 { CX1， X2 ) ， 我 们 可 以 将 其 类 型 表示 为 Sixs -tt 其 中 s1 和 ss 分 别 是 x1 
和 x 的 类 型 ， 而 t 是 函数 f(x1，x2〉 的 结果 类 型 。 通 过 检查 s1 是 否 和 a 的 
类 型 匹配 ，s> 是 否 和 b 的 类 型 匹配 ， 就 可 以 检查 表达 式 f{〈a，b) 的 类 
型 


检查 输入 序列 中 的 函数 定义 和 表达 式 。 当 一 个 函数 在 其 后 的 表达 式 
中 被 使 用 时 ， 融 使 用 推导 得 到 的 该 函 数 的 类 型 。 


。 对 一 个 函数 定义 fun idi (id,) =E， 创 建 一 个 新 的 类 型 变量 a 和 Pp。 
将 函数 id1 与 类 型 a ,BB 相 关联 ， 参 数 id, 和 类 型 a 相关 联 。 然 后 ， 推 
导出 表达 式 E 的 类 型 。 假 设 在 对 E 进 行 类 型 推导 之 后 ，a 表 示 类 型 s 而 
Bb 表 示 类 型 {t。 推 导 得 到 的 函数 id1 的 类 型 就 是 s -,t。 使 用 量词 来 限 
制 js -t 中 任何 未 受 约束 的 类 型 变量 。 

对 于 函数 应 用 E; (E,) ， 推 导出 El 和 E, 的 类 型 。 因 为 E1 被 用 作 一 个 
函数 ， 它 的 类 型 一 定 具有 ss' 的 形式 《从 技术 上 来 说 ，E1 的 类 型 必 
须 和 By 合 一 ， 其 中 B 和 y 是 新 的 类 型 变量 ) 。 假 定 推 导 得 到 的 E, 的 
类 型 为 [t。 对 s 和 t 进 行 合 一 处 理 。 如 果 合 一 失败 ， 表 达 式 返回 类 型 错 
误 ， 否 则 推导 得 到 的 E;， (E,) 的 类 型 为 s'。 

对 一 个 多 态 函 数 的 每 次 出 现 ， 将 它 的 类 型 表达 式 中 的 受 限 变量 蔡 换 
为 互 不 相同 的 新 变量 ， 并 移 除 立 量词 。 蔡 换 得 到 的 类 型 表达 式 就 是 
这 个 多 态 函数 的 本 次 出 现 所 对 应 的 推导 类 型 。 

。 对 于 第 一 次 磁 到 的 变量 ， 引 入 一 个 新 的 类 型 变量 来 代表 它 的 类 型 。 


在 图 6-30 中 ， 我 们 为 函数 length 推 导出 一 个 类 型 。 图 6-29 中 语 
法 树 的 根 表示 一 个 函数 定义 ， 因 此 我 们 引入 变量 B 和 Y， 并 将 类 型 B 一 Y 关 


























联 到 函数 length， 将 B 关 联 到 x。 见 图 6-30 的 1 一 2 行 。 


在 根 的 右 子 结 点 上 ， 我 们 把 证 看 作 一 个 应 用 到 三 元 组 上 的 多 态 函 
数 ， 这 个 三 元 组 包括 一 个 布尔 型 变量 以 及 两 个 分 别 代表 then 和 else 分 文 
的 表达 式 。 函 数 站 的 类 型 是 Va.booleanxaxa a。 


多 态 函 数 的 每 次 应 用 可 能 作用 于 不 同 的 类 型 ， 因 此 我 们 构造 一 个 新 
的 临时 变量 a 〈i 取 自 直 ) ， 并 移 除 V， 见 图 6-30 中 的 第 三 行 。 函 数 话 的 左 
子 结 点 的 类 型 必须 和 boolean 类 型 合 一 ， 其 他 两 个 子 结 点 的 类 型 必须 和 a 
2A = 










表达 式 : 
length : G 一 7 
2 :0 
if : boolean x ai X Qi 一 Qi 
null : list(Qan) 一 boolean 
null(z) : boolean 
0 : integer 
+ : integer x integer — integer 
tl : list(a) — list(a:) 
tl(z) : list(Qt) 
length(tl(z)) : 7 
1 : nteger 
length(tl(z)) +1 : integer 
if( ... ) : integer 


图 6-30 ”推导 图 6-28 中 的 肖 数 length 的 类 型 


预定 义 函 数 null 的 类 型 为 Va.list (a) boolean。 我 们 使 用 一 个 新 
的 类 型 变量 a。 (其 中 n 表 示 null) 来 蔡 换 受 限 变量 x， 见 第 4 行 。 因 为 null 
被 应 用 于 x， 我 们 推导 出 x 的 类 型 Bb 必须 和 list (oa ) 匹配 ， 见 第 5 行 。 


在 让 的 第 一 个 子 结 点 上 ，null (x)〉 的 类 型 boolean 和 证 函数 预期 的 类 
型 相 匹 配 。 在 第 二 个 子 结 点 上 ， 类 型 % 与 integer 进 行 合 一 ， 见 第 6 行 。 


现在 考虑 子 表达 式 length (tl (x) ) +1。 我 们 为 类 型 中 的 约束 变量 
a 建立 新 的 临时 变量 qa。 (其 中 t 表 示 “tail*) ， 见 第 8 行 。 根 据 tl (x)〉 的 应 
用 ， 我 们 推导 出 list Cat) = B=list Cao) ， 见 第 9 行 。 
























list(Qan)= BB 
Qi 三 integer 

















list(az) = list(an) 
了 三 integer 





















因为 length 《td (x) ) 是 + 的 一 个 运算 分 量 ， 它 的 类 型 Y 必 须 和 


integer 合 一 ， 见 第 10 行 。 可 以 推出 length 的 类 型 为 list (ai ) -integer。 在 
检查 完 这 个 函数 定义 之 后 ， 类 型 变量 oi 仍然 保留 在 length 的 类 型 中 。 因 
为 没有 对 m 作 出 任何 假设 ， 当 使 用 该 函数 时 ou 可 以 被 蔡 换 为 任何 类 型 。 
因此 ， 我 们 可 以 把 它 变 成 一 个 受 限 变量 ， 并 把 length 的 类 型 写作 : 


Yonlist al) 一 integer 





加 一 上 全 





非 正 式 地 讲 ， 合 一 就 是 判断 能 人 否 通 过 将 两 个 表达 式 s 和 t 中 的 变量 符 
换 为 某 些 表达 式 ， 使 得 s 和 t 相 同 。 测 试 表达 式 是 否 等 价 是 合 一 的 一 个 特 
殊 情 况 。 如 果 s 和 t 中 只 有 常量 没有 变量 ， 则 s 和 t 合 一 当 且 仪 当 它 们 完全 
相同 。 本 市 中 的 合 一 算法 可 以 处 理 伟 有 环 的 图 ， 因 此 它 可 以 用 于 测试 御 
环 类 型 的 结构 等 价 性 外。 


我 们 将 实现 一 种 基于 图 论 表示 方法 的 合 一 算法 ， 其 中 类 型 被 表示 成 
图 的 形式 。 类 型 变量 用 叶子 结 点 表示 ， 类 型 构造 算 子 用 内 部 结 反 表示 。 
结 点 被 分 成 大 干 的 等 价 类 。 如 果 两 个 结 点 在 同一 个 等 价 类 中 ， 那 么 它们 
代表 的 类 型 表达 式 就 必须 合 一 。 因 此 ， 同 一 个 等 价 类 中 的 内 部 结 点 必须 
具有 同样 的 类 型 构造 算 子 ， 且 它们 的 对 应 子 结 点 必须 等 价 。 


考虑 下 列 两 个 类 型 表达 式 


( (ai 一 oo) xlist (aa3) ) 一 jist〈oao) 























( (aa 一 oa4) xlist (a3) ) 一 QG5 


下 列 的 置换 $ 是 这 两 个 表达 式 的 最 一 般 化 的 合 一 蔡 换 : 


x S(x) 


Q] QQ 
Q5 0 
QL3 Q] 
QA CI 
Qs list( ay ) 


这 个 置换 将 上 述 两 个 类 型 表达 式 映 射 成 如 下 的 表达 式 
( (a1—»02) xlist (a1) ) —list (a) 


这 两 个 表达 式 被 表示 为 图 6-31 中 标号 为 -.: 1 的 两 个 结 点 。 结 点 上 的 整 
数 编号 指明 了 在 编号 为 1 的 结 点 被 合 一 后 ， 各 个 结 点 所 属 的 等 价 类 的 纺 
= 








一 :1 = 
a 
汉 守 多 list:8 站 Q5 :8 
Ee ™ 
一 :3 /st :6 一 :3 lst :6 
3 
Qa1:4 Q2:5 a3 :4 Qa4 :5 


图 6-31 会 一 后 的 等 价 类 
各 测 本 类 型 图 中 的 一 对 结 点 的 合 一 处 理 。 
输入 : 一 个 表示 类 型 的 图 ， 以 及 需要 进行 合 一 处 理 的 结 点 对 m 和 





输出 : 如 果 结 点 m 和 n 表 示 的 表达 式 可 以 合 一 ， 返 回 布尔 值 tue。 反 
之 返回 false。 


方法 ; 结 点 用 一 个 记录 实现 ， 记 录 中 的 字段 用 于 存放 一 个 二 元 运算 
符 和 分 别 指向 其 左右 子 结 点 的 指针 。 字 段 set 用 于 保存 等 价 结 点 的 集合 。 
每 个 等 价 类 都 有 一 个 结 点 被 选 作 这 个 类 的 唯一 代表 ， 它 的 set 字 段 包含 一 
个 空 指针 。 等 价 类 中 其 他 结 点 的 set 字 段 〈 可 能 通过 该 集合 中 的 其 他 结 点 
间接 地 ) 指向 该 等 价 类 的 代表 结 点 。 在 初始 时 刻 ， 每 个 结 点 n 自 吴 组 成 
一 个 等 价 类 ，n 是 它 自己 的 代表 结 点 。 


如 图 6-32 所 示 的 合 一 算法 在 结 点 上 进行 如 下 两 种 操作 : 








boolean unify( Node m, Node n) { 
s = find(m); t= find(n); 
if (ss=+t)return true; 
else if ( 结 点 8 和 + 表示 相同 的 基本 类 型 ) return trwe; 
else 填 (s 是 一 个 带 有 子 结 点 51 和 532 的 oj- 结 点 and 
t 是 一 个 带 有 子 结 点 要 和 t2 的 0P- 结 点 ) { 
union(s, +t); 
return unify(si1,t1) and vnify(s2, t2); 


} 

else 于 (s 或 者 t 表 示 一 个 变量 ){ 
union(s, t); 
return true; 


else return false; 





图 6-32 合 一 算法 


。find (n) 返回 当前 包含 结 点 n 的 等 价 类 的 代表 结 点 。 

e。 union (m，n) 将 包含 结 点 m 和 n 的 等 价 类 合并 。 如 果 m 和 n 所 对 应 的 
等 价 类 的 代表 结 点 中 有 一 个 是 非 变 量 的 结 点 ， 则 union 将 这 个 非 变 
量 结 点 作为 合并 后 的 等 价 类 的 代表 结 点 ;， 否则 ，union 把 任意 一 个 
原 代 表 结 点 作为 新 的 代表 结 点 。 这 种 在 union 的 规约 中 的 非 对 称 性 
非常 重要 ， 因 为 如 果 一 个 等 价 类 对 应 于 一 个 带 有 类 型 构造 算 子 的 类 








型 表达 式 或 基本 类 型 ， 我 们 就 不 能 用 一 个 变量 作为 该 等 价 类 的 代 
表 。 人 否则， 两 个 不 等 价 的 表达 式 可 能 会 通过 该 变量 被 合 一 。 


集合 的 union 操 作 的 实现 很 简单 ， 只 需要 改变 一 个 等 价 类 的 代表 绪 
扩 的 set 字 段 ， 使 之 指 癌 男 一 个 等 价 类 的 代表 结 点 即 可 。 为 了 找到 一 个 结 
扩 所 属 的 等 价 类 ， 我 们 沿 厦 各 个 结 点 的 set 字 上段 中 的 指针 前 进 ， 直 到 a 到达 
代表 结 点 《〈《 即 set 字 段 指针 为 空 指针 的 结 点 ) 为 止 。 


请 注意 ， 图 6-32 中 的 算法 分 别 使 用 s=find (m) 和 t=find Cn) ， 而 不 
是 直接 使 用 m 和 n。 如 果 m 和 n 在 同一 个 等 价 类 中 ， 那 么 代表 结 点 s 和 t 相 
等 。 如 果 s 和 t 表 示 相 同 的 基本 类 型 ， 则 调用 unify (m，n) 返回 true。 如 
果 s 和 t 都 是 代表 某 个 二 目 类 型 构造 算 子 的 内 部 结 点 ， 那 么 我 们 党 试 合 并 
它们 的 等 价 类 ， 并 递归 地 检查 它们 的 各 个 子 结 点 是 否 等 价 。 因 为 首先 进 
| 
~ ~ O 


将 一 个 变量 置换 为 一 个 表达 式 的 实现 方法 如 下 : 把 代表 该 变量 的 叶 
子 结 点 加 入 到 代表 该 表达 式 的 结 点 所 在 的 等 价 类 中 。 假 设 m 或 n 表 示 一 
个 变量 的 叶子 结 点 ， 同 时 假设 这 个 结 点 已 经 放 入 满足 下 面条 件 的 等 价 类 
中 ， 即 这 个 等 价 类 中 的 一 个 结 点 代表 的 表达 式 或 者 市 有 一 个 类 型 构造 算 
子 ， 或 者 是 一 个 基本 类 型 。 那 么 ，find 将 会 返回 一 个 反映 该 类 型 构造 算 
子 或 基本 类 型 的 代表 结 点 ， 使 一 个 变量 不 会 和 两 个 不 同 的 表达 式 合 一 。 


Wp 人 假设 例 6.18 中 的 两 个 表达 式 可 以 用 图 6-33 中 的 两 个 初始 图 表 
未， 图 中 的 每 个 结 点 所 在 的 等 价 类 仅 仪 包含 该 结 点 。 当 应 用 算法 6.19 来 
计算 unify (1，9) 时 ， 注 意 到 结 点 1 和 9 表示 同一 个 运算 符 。 因 此 将 结 点 
1 和 9 合并 成 同一 个 等 价 类 ， 并 调用 unify (2，10) 和 unify (8，14) 。 
执行 unify (1，9) 得 到 的 结果 就 是 前 面 在 图 6-31 中 显示 的 图 。 
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图 6-33 ”初始 图 ， 其 中 的 每 个 结 点 在 只 包含 该 结 点 自身 的 等 价 类 中 


如 果 算 法 6.19 返 回 true， 我 们 可 以 按照 如 下 方法 构造 出 一 个 置换 S 作 
为 合 一 替换 。 对 于 每 个 变量 a，find (a) 给 出 a 的 等 价 类 的 代表 结 点 n。n 
所 表示 的 表达 式 为 S Ca) 。 例 如 ， 在 图 6-31 中 ， 我 们 看 到 as 的 代表 结 点 
为 4， 这 个 结 点 表示 ai 。 结 点 8 是 os 的 代表 结 点 ， 这 个 结 点 表示 
list (az) 。 置 换 $ 的 结果 如 例 6.18 所 示 。 





6.5.6 ”6.5 节 的 练习 


练习 6.5.1: 假定 图 6-26 中 的 函数 widen 可 以 处 理 图 6-25a 的 层次 结构 
中 的 所 有 类 型 ， 翻 译 下 列表 达 式 。 假 定 c 和 d 是 字符 型 ，s 和 t 是 短 整 型 ，i 
和 j 为 整 型 ，x 是 浮 点 型 。 


1 
2)i=s+c 
3)x= (s+c)* (t+d) 
练习 6.5.2: 像 Ada 中 那样 ， 我 们 假设 每 个 表达 式 必 须 具 有 唯一 的 类 
型 ， 但 是 我 们 根据 一 个 子 表达 式 本 吴 只 能 推导 出 一 个 可 能 类 型 的 集合 。 


也 就 是 说 ， 将 函数 Ej 应 用 于 参数 E，( 其 文法 产生 式 为 E ~“E; (E,) ) 有 
如 下 规则 : 





E.type = {t| 对 E>.type 中 的 某 个 s，s 一 t 在 Ei.type 中 } 


描述 一 个 可 以 确定 每 个 子 表达 式 的 唯一 类 型 的 语法 制导 定义 〈SDD) 。 
它 首 先 使 用 属性 type， 按 照 自 底 向 上 的 方式 综合 得 到 一 个 可 能 类 型 的 集 
合 。 在 确定 了 整个 表达 式 的 唯一 类 型 之 后 ， 目 顶 问 下 地 确定 属性 unique 
的 值 ， 这 个 属性 表示 各 个 子 表达 式 的 类 型 。 





6.6 ”控制 流 


if-else 语 句 、while 语 句 这 类 语句 的 翻译 和 对 布尔 表达 式 的 翻译 是 结 
合 在 一 起 的 。 在 程序 设计 语言 中 ， 布 尔 表达 式 经 常用 来 : 


1) 改变 控制 流 。 布 尔 表达 式 被 用 作 语 句 中 改变 控制 流 的 条 件 表达 
式 。 这 些 布尔 表达 式 的 值 由 程序 到 达 的 某 个 位 置 隐 含 地 指出 。 例 如 ， 
在 这 (E)〉S 中 ， 如 果 运 行 到 语句 S$， 就 意味 着 表达 式 E 的 取 值 为 真 。 


2) 计算 逻辑 值 。 一 个 布尔 表达 式 的 值 可 以 表示 true 或 false。 这 样 的 
布尔 表达 式 也 可 以 像 算 术 表 达 式 一 样 ， 使 用 带 有 逻辑 运算 符 的 三 地 址 指 
令 进 行 求 值 。 


布尔 表达 式 的 使 用 意图 要 根据 其 语法 上 下 文 来 确定 。 例 如 ， 跟 在 关 
键 字 半 后 面 的 布尔 表达 式 用 来 改变 控制 流 ， 而 一 个 赋值 语句 右 部 的 表达 
式 用 来 表示 一 个 逻辑 值 。 有 多 种 方式 可 以 描述 这 样 的 上 下 文 : 我 们 可 以 
使 用 两 个 不 同 的 非 终 结 符 写 ， 也 可 以 使 用 继承 属性 ， 还 可 以 在 语法 分 析 
过 程 中 设置 一 个 标记 。 此 外 ， 我 们 还 可 以 建立 一 棵 语法 分 析 树 并 调用 不 
同 的 过 程 来 处 理 布 尔 表 达 式 的 两 种 不 同 的 使 用 。 

本 节 将 介绍 用 于 改变 控制 流 的 布尔 表达 式 。 更 清楚 地 说 ， 我 们 为 此 
引入 一 个 新 的 非 终 结 符号 B。 在 6.6.6 节 中 ， 我 们 将 考虑 编译 器 如 何 使 得 
布尔 表达 式 表示 风 辑 值 。 











6.6.1 布尔 表达 式 





布尔 表达 式 是 将 由 作用 于 布尔 变量 或 关系 表达 式 的 布尔 运算 符 而 构 
成 的 。 我 们 使 用 C 语 言 的 方法 ， 用 &&&、1、! 分 别 表示 AND、OR、NOT 
运算 符 。 关 系 表达 式 的 形式 为 E rel E,。 其 中 ，Ej 和 E, 为 算术 表达 式 。 
在 本 节 中 ， 我 们 考虑 的 是 由 如 下 文法 生成 的 布尔 表达 式 : 


B— ,BIB|B&&B|! B| (B) |E relEk |truelfalse 





我 们 通过 属性 rel.op 来 指明 rel 究 竟 表 示 6 种 比较 运算 符 <、<=、 
=、! =、> 和 >= 中 的 哪 一 种 。 按 照 惯例 ， 假 设 I 和 &&& 是 左 结合 的 ，1 的 优 
先 级 最 低 ， 其 次 为 &&， 再 其 次 为 ! 。 


给 定 表达 式 BilB,， 如 果 我 们 已 经 确定 B; 为 真 ， 那 么 不 用 再 计算 B。 
就 可 以 断定 整个 表达 式 为 真 。 同 样 的 ， 给 定 Bi&&B,， 如 果 B1 为 假 ， 则 
整个 表达 式 为 假 。 


程序 设计 语言 的 语义 定义 决定 了 是 否 需 要 对 一 个 布尔 表达 式 的 各 个 
部 分 都 进行 求 值 。 如 果 语 言 的 定义 允许 〈 或 要 求 ) 不 对 布尔 表达 式 的 某 
个 部 分 求 值 ， 那 么 编译 器 就 可 以 优化 布尔 表达 式 的 求 值 过 程 ， 只 要 已 经 
求 值 的 部 分 足以 确定 整个 表达 式 值 就 可 以 了 上。 因此， 在 表达 式 BilB。 
中 ，B; 和 B, 都 不 一 定 要 完全 地 求 值 。 如 果 B; 或 B, 是 具有 副作用 的 表达 式 
(比如 它 包含 了 改变 一 个 全 局 变量 的 函数 ) ， 那 么 这 么 做 就 可 能 会 得 到 
意料 之 外 的 结 








6.6.2 ”短路 代码 


在 短路 〈 跳 转 ) 代码 中 ， 布 尔 运 算 符 &&、1 和 ! 被 翻译 成 跳 转 指 
令 。 运 算 符 本 身 不 出 现在 代码 中 ， 布 尔 表达 式 的 值 是 通过 代码 序列 中 的 
位 置 来 表示 的 。 


滞 向 

if (x<100 | x>200 && x! =y) x=0; 
可 以 被 翻译 成 图 6-34 所 示 的 代码 。 在 这 个 翻译 中 ， 如 果 程 序 的 控制 流 到 
达 L,， 就 表示 这 个 布尔 表达 式 为 真 。 如 果 表 达 式 为 假 ， 则 程序 控制 流 将 
跳 过 L; 和 赋值 语句 x=0， 直 接 转 到 Li 。 


if x < 100 goto L2 
ifFalse x > 200 goto Li 


ifFalse x != y goto Li 





图 6-34 ” 跳 转 代码 
6.6.3 ”控制 流 语句 


现在 我 们 考虑 在 按 下 列 文 法 生成 的 语句 的 上 下 文中 ， 如 何 把 布尔 表 
达 式 翻译 成 为 三 地 址 代码 。 


Ss,if (B) Si 
S— if (B) Si else S， 
S— while (B) Si 


在 这 些 产 生 式 中 ， 非 终结 符号 B 表 示 一 个 布尔 表达 式 ， 非 终结 符号 S 表 
不 一 个 证 全 3 


这 个 文法 将 例 5.19 中 介绍 的 关于 while 表 达 式 的 连续 使 用 的 例子 进行 
了 推广 。 和 那个 例子 一 样 ，B 和 S 有 综合 属性 code， 访 属性 给 出 了 翻译 得 
到 的 三 地 址 指令 。 为 简单 起 见 ， 我 们 使 用 语法 制导 定义 来 构造 得 到 翻译 
结果 B.code 和 S.code， 结 果 值 是 字符 串 。 定 义 了 code 属 性 的 语义 规则 还 
可 以 按照 下 面 的 方法 实现 : 首先 构造 语法 树 ， 并 在 过 历 树 的 过 程 中 产生 
目标 代码 。 这 些 规 则 还 可 以 通过 5.5 节 中 列 出 的 任何 方法 来 实现 。 


如 网 6-35a 所 示 ， 对 证 (B) Si 的 翻译 结果 中 包含 了 B.code， 其 后 是 
Si.code。B.code 中 存在 基于 B 值 的 跳 转 。 如 有 果 B 为 真 ， 控 制 流 转 回 
Si.code 的 第 一 条 指令 ;如 果 B 为 假 ， 控 制 流 了 立即 转 癌 紧 跟 在 Si.code 之 后 
的 相仿 x 





























to 万 .true 





to B.trvue 
— 
B.code to B.false B.code to B.false 
true :| ee B.true : 
91.code 91.code 
| 
B.false : | goto .next 
B.false : 
a) if f S».code 
i to_B.true 
EN . We S.nert : 
B.code |to B.false 
i 
B.true : s ee b) if-else 
1.Code 
goto begin 
B.false : 








c) while 


图 6-35 if、if-else、while 语 名 的 代码 


B.code 和 S.code 中 的 跳 转 标号 使 用 继承 属性 来 处 理 。 我 们 将 布尔 表 
达 式 B 和 两 个 标号 : B.true 和 B.false 相 关联 。 当 B 为 真 时 控制 流转 到 
B.true; 当 B 为 假 时 控制 流转 到 B.false。 我 们 将 语句 S 和 继承 属性 S.next 相 
关联 ， 这 个 属性 表示 紧 跟 在 S 代 码 之 后 的 指令 的 标 写 。 在 某 些 情况 下 ， 
紧 跟 在 S.code 之 后 的 指令 是 一 个 跳 转 到 某 个 标号 工 的 跳 转 指令 。 使 用 
S.next 可 以 避免 在 S.code 中 出 现 这 样 的 一 个 跳 转 指令 ， 它 的 目标 又 是 一 
个 以 L 为 目标 的 跳 转 指令 。 


图 6-36 和 图 6-37 给 出 的 语法 制导 定义 可 以 为 在 过、if-else 及 while 语 句 
的 上 下 文中 的 布尔 表达 式 生 成 三 地 址 代码 。 











语义 规则 
有 S.nert = newlabel() 
P.code = S.code || label(S.nezt) 


5S assign S.code = assign.code 


S— if(B)S B.true = newlabel() 
B.false = Si.nert = S.nert 
S.code = B.code || label(B.true) || S1.code 


5S— if(B)S:' else Ss |B.truve = newlabell() 
B.false = newlabel() 
Si.nert = So2.nert = S.nert 
S.code = B.code 
|| label(B.true) || Si1.code 
|| gen('goto’ S.nezt) 
|| label(B.false) || S».code 





9 一 while(B)S begin = newlabel() 

B.true = newlabel() 

B.false = S.nexzt 

Si.nert = begin 

S.code = label(begin) || B.code 
|| label(B.true) || Si1.code 
|| gen(’'goto’ begin) 


Si.next = newlabell() 
S2.nert = S.next 
S.code = Si1.code || label(S1.nezt) || $2.code 


图 6-36 控制 流 语句 的 语法 制导 定义 


我 们 假定 每 次 调用 newlabel0 都 会 产生 一 个 新 的 标号 ， 并 假设 
label (EL ) 将 标号 L 附 加 到 即将 生成 的 下 一 条 三 地 址 指令 上 回 。 


一 个 程序 包含 一 条 由 产生 式 P~ S 生 成 的 语句 。 和 这 个 产生 式 关 联 的 
语义 规则 将 S.next 初 始 化 为 一 个 新 标号 。P.code 包 含 S.code，S.code 之 后 
是 新 标号 S.next。 产 生 式 S ~ assign 中 的 词法 单元 assign 是 一 个 表示 赋值 
语句 的 占 位 符 。 赋 值 语 句 的 翻译 和 6.4 节 中 讨论 的 方法 相同 。 在 这 里 对 
控制 流 的 讨论 中 ，S.code 就 是 assign.code。 


在 翻译 S ,并 (B)〉 SI 时， 图 6-36 中 的 语义 规则 创建 一 个 新 的 标号 
B.true， 并 将 其 关联 到 为 语句 $1 生成 的 第 一 条 三 地 址 指令 中 ， 如 图 6-35a 
所 示 。 因 此 ，B 的 代码 中 跳 转 到 B.true 的 指令 将 跳 转 到 语句 $1 对 应 的 代码 
处 。 不 仅 如 此 ， 通 过 将 B.false 设 为 S.next， 我 们 保证 了 当 B 的 值 为 假 时 ， 





控制 流 将 跳 过 Si 的 代码 。 


在 翻译 if-else 语 句 S 过 (B)S1 else S" 时 ， 布 尔 表 达 式 B 的 代码 中 有 
一 些 向 外 跳 转 的 指令 ， 它 们 在 B 为 真 时 跳 转 到 S51 的 代码 的 第 一 条 指令 ; 
在 B 为 假 时 跳 转 到 5, 的 代码 的 第 一 条 指令 ， 如 图 6-35b 所 示 。 然 后 ， 控 制 
流 从 S1 或 5 转 到 紧 跟 在 $S 的 代码 之 后 的 三 地 址 指令 一 一 该 指令 的 标号 由 
继承 属性 S.next 指 定 。 在 Si 的 代码 之 后 有 一 条 goto S.next 指 令 ， 使 得 控制 
流 越过 S, 的 代码 。S, 的 代码 之 后 不 需要 goto 语 句 ， 因 为 $2.next 就 是 


S.next。 








如 图 6-35c 所 示 ，S while (B) Si 的 代码 由 B.code 和 Si.code 组 成 。 
我 们 使 用 一 个 局 部 变量 begin 来 存放 附加 在 这 个 while 语 句 的 第 一 条 指令 
上 的 标号 。 这 个 while 语 句 的 第 一 条 指令 也 是 B 的 第 一 条 指令 。 我 们 在 这 
里 使 用 变量 而 不 是 属性 ， 是 因为 begin 对 于 这 个 产生 式 的 语义 规则 而 言 
是 局 部 的 。 继 承 属性 S.next 标 记 了 当 B 为 假 时 控制 流 必 须 转 问 的 标号 。 
此 ，B.false 被 设置 为 S.next。 在 $1 的 第 一 条 指令 上 附加 了 一 个 新 标号 
B.true。B 的 指令 中 的 跳 转 指 令 在 B 为 真 时 跳 转 到 这 个 标号 。 我 们 在 $1 的 
代码 之 后 放置 了 一 条 指令 goto begin， 它 跳 回 到 布尔 表达 式 的 代码 的 开 
始 处 。 请 注意 ，Si.next 被 设置 为 标号 begin， 因 此 从 Si.code 中 跳出 的 指令 
可 以 直接 跳 转 到 begin。 


S 一 S155 的 代码 包含 了 S1 的 代码 ， 然 后 是 55 的 代码 。 相 应 的 语义 规 
则 主要 处 理 标号 。Si 的 代码 之 后 的 第 一 条 指令 就 是 S 的 代码 的 起 始 指 
令 。 紧 跟 在 S 的 代码 之 后 的 指令 也 是 跟 在 S 的 代码 之 后 的 指令 。 


我 们 将 在 6.7 市 中 进一步 讨论 控制 流 语句 的 翻译 。 在 那里 我 们 将 使 
用 另 一 种 被 称 为 回填 的 方法 ， 它 可 以 在 一 次 扫描 中 生成 各 个 语句 的 代 











6.6.4 ”布尔 表达 式 的 控制 流 翻 详 


图 6-37 中 针对 布尔 表达 式 的 语义 规则 是 图 6-36 中 语句 的 语义 规则 的 
一 个 补充 。 如 图 6-35 中 的 代码 布局 方案 所 示 ， 一 个 布尔 表达 式 B 被 翻译 





为 一 个 三 地 址 指令 ， 它 将 使 用 条 件 或 无 条 件 跳 转 指令 来 对 B 求 值 。 这 些 
跳 转 指令 的 目标 是 两 个 标号 之 一 : 当 B 为 真 时 是 B.true; 当 B 为 假 时 是 
B.false。 











FR 
Bi.true = B.true 
Bi.false = newlabell() 
B».true = B.true 
B, .false = B.false 
B.code = Bi.code || label(Bi .false) || Ba2.code 


Bi.true = newlabel() 

Bi.false = B.false 

Bo».true = B.true 

B, .false = B.false 

B.code = Bi.code || label( Bi.true) || Ba2.code 


Bi.true = B.false 
Bi .false = B.true 
B.code = Bl.code 


Pi rel BE | B.code = Ei.code || Ez.code 
|| gen('if’ Ei.addr rel.op FE».addr goto' B.true) 
|| gen(' goto’ B.false) 


B.code = gen('goto’ B.true) 





B.code = gen('goto’' B.false) 
图 6-37 为 布尔 表达 式 生 成 三 地 址 代码 


图 6-37 中 的 第 四 个 产生 式 ， 即 B -Ei rel E*， 直 接 被 翻译 成 三 地 址 比 
较 指 令 ， 跳 转 到 正确 的 位 置 。 例 如 ，a<b 被 翻译 成 : 


if a < b goto B.trwe 
goto B.false 


B 的 其 余 产生 式 按照 下 面 的 方法 翻译 : 


1) 假定 B 形 如 BilB,*。 如 果 Bi 为 真 ， 那 么 我 们 立刻 知道 B 本 号 也 为 
真 ， 因 此 Bi.true 和 B.true 相 同 。 如 果 B; 为 假 ， 那 么 就 必须 对 B, 求 值 ， 
此 我 们 将 Bi.false 设 置 为 B, 的 代码 的 第 一 条 指令 的 标 写 。B, 的 真 假 出 口 
分 别 等 于 B 的 真 假 出 口 。 


2) Bi&&B1 的 翻译 方法 类 似 于 1。 





3) 不 需要 为 B-! Bi 产生 新 的 代码 ， 只 需要 将 B 中 的 真 假 出 口 对 


换 ， 就 可 分 别 得 到 Bi 的 真 假 出 口 。 


-> 


4) 将 常量 true 和 false 分 别 翻译 成 目标 为 B.true 和 B.false 的 跳 转 指 


令 。 


重新 考虑 例 6.21 中 的 下 列 语句 : 
if (x<100 || x>200 && x! =y) x=0; (6.13) 


使 用 图 6-36 和 图 6-37 中 的 语法 制导 定义 ， 我 们 可 以 得 到 图 6-38 中 的 代 
码 。 


< 100 goto L2 
L3 
> 200 goto La 
Li 


!= y goto L» 
L1 





图 6-38 ”一 个 简单 的 if 语句 的 控制 流 翻译 结果 


语句 (6.13) 是 图 6-36 中 的 产生 式 P~ S$ 生 成 的 一 个 程序 。 这 个 产生 
式 的 语义 规则 生成 了 S 的 代码 之 后 的 第 一 条 指令 的 新 标号 L1。 语 句 S 的 形 
式 为 二 (B) Si1， 其 中 Si 是 xz=0。 因 此 ， 图 6-36 中 的 规则 生成 了 一 个 新 标 
号 L?， 并 将 它 附加 到 Si.code 的 第 一 条 《在 这 个 例子 中 也 是 唯一 的 ) 指 
令 ， 即 x=0 处 。 

因为 I 的 优先 级 低 于 &g&， 所 以 式 〈6.13) 中 的 布尔 表达 式 的 形式 为 
BiIB,， 其 中 Bi 是 x<100。 按 照 图 6-37 中 的 规则 ，Bi.true 是 L*， 即 语句 x=0 
的 标号 ; Bj.false 是 一 个 新 的 标号 La3， 它 附加 在 B, 的 代码 的 第 一 条 指令 





a 


值得 注意 的 是 ， 生 成 的 代码 不 是 最 优 的 ， 因 为 这 个 翻译 结果 比例 
6.21 中 的 代码 多 三 条 (goto〉 指令。 指令 goto Ls 是 见 余 的 ， 因 为 Ls 恰巧 
就 是 下 一 条 指令 的 标号 。 如 果 像 例 6.21 中 那样 使 用 ifFalse 指 令 ， 而 不 使 
用 if 指令 ， 那 么 两 条 goto L, 指 令 也 可 以 被 消除 。 





6.6.5 “避免 生成 元 余 的 goto 指 令 


在 例 6.22 中 ， 比 较 表达 式 x>200 被 翻译 成 如 下 代码 片段 : 


if x > 200 goto La 
goto Li 
Li a 


可 以 将 上 面 的 指令 蔡 换 为 如 下 指令 : 


ifFalse x > 200 goto Li 
La: i': 


ifFlase 指 令 利 用 了 控制 流 在 指令 序列 中 会 从 一 个 指令 目 然 流动 到 
下 一 个 指令 的 性 质 ， 因 此 当 x>200 时 ， 控 制 流 直接 “ 罕 越 ?到 标号 L4， 从 
而 减少 了 一 个 跳 转 指令 。 


在 图 6-35 中 所 示 的 过 和 while 语 句 的 代码 布局 中 ，S1 的 代码 紧 跟 在 布 
尔 表达 式 B 的 代码 之 后 。 通 过 使 用 一 个 特殊 标号 “fall”( 即 “不 要 生成 任 
何 跳 转 指令 ”) ， 我 们 可 以 修改 图 6-36 和 图 6-37 中 的 语义 规则 ， 支 持 控制 
流 从 B 的 代码 直接 穿越 到 $j1 的 代码 。 图 6-36 中 的 产生 式 S 并 (B) Si; 的 
新 语义 规则 将 B.true 设 为 fall: 
B.true = fall 


B.false = Si1.nert = S.nert 
S.code = B.code || Si1.code 





类 似 地 ，if-else 和 while 语 句 的 规则 也 将 B.true 设 为 fall。 


现在 我 们 将 修改 布尔 表达 式 的 语义 规则 ， 使 之 尽 可 能 地 允许 控制 流 
守 越 。 在 B.true 和 B.false 都 是 显 式 的 标号 时 ， 也 束 是 说 它们 都 不 等 于 fall 
时 ， 图 6-39 中 的 B 一 Ei rel E> 的 新 规则 将 产生 两 条 指令 〈 和 图 6-37 一 
样 )。 否 则 ， 如 果 B.true 是 显 式 的 标号， 那么 B.false 一 定 是 fall， 因 此 它 
们 产生 一 条 if 指令 ， 使 得 当 条 件 为 假 时 控制 流 罕 越 到 下 一 条 指令 。 反 过 
来 ， 如 果 B.false 是 显 式 的 标号 ， 那 么 它们 产生 一 条 ifFalse 指 令 。 在 其 余 
情况 中 ，B.true 和 B.false 都 是 fall， 因 此 不 产生 任何 跳 转 指令 印 。 


test = Ei.addr rel.op E».addr 
s = ifB.true#falland B.false # fall then 
gen('if’ test 'goto’ B.true) || gen( goto' B.false) 
else if B.true # fall then gen('if’ test 'goto’ B.true) 


else if B.false £ fall then yen('ifFalse’ test goto' B.false) 
else ′ 


B.code = Fi.code || Ez.code || s 








图 6-39 BE rel Es 的 语义 规则 


在 图 6-40 中 显示 的 BBilB, 的 新 规则 中 ， 请 注意 B 的 fall 标 号 和 Bi 的 
fall 标 号 具有 不 同 的 含义 。 假 定 B.true 为 fall， 即 如 果 B 为 真 时 控制 流 穿越 
B。 虽 然 当 B1 为 真 时 B 的 值 必然 为 真 ， 但 Bi.true 必 须 保 证 控制 流 跳 过 B。 
的 代码 ， 直 接 到 达 B 之 后 的 下 一 条 指令 。 





Bi.true = if B.trve # fall then B.true else newlabel() 


Bi .false = fall 
Bo.true = B.true 


B,.false = B.false 
B.code = if B.true # fallthen Bi.code || B».code 
else Bi.code || B».code || label( Bi .true) 





图 6-40 ”BB1 Bs 的 语义 规则 
男 一 方面 ， 如 果 Bi] 的 值 为 假 ，B 的 真 假 值 就 由 B, 的 值 决定 。 因 此 ， 
图 6-40 中 的 规则 保证 Bj.false 对 应 于 控制 流 穿越 B] 直 接 到 达 B, 的 代码 的 情 
况 。 
B -Bi&&B, 的 语义 规则 和 图 6-40 中 的 语义 规则 类 似 ， 我 们 将 其 留 作 


练习 。 
使 用 了 特殊 标号 fall 的 语义 规则 将 例 6.21 中 的 程序 〈6.13) 


if (x<100 || x>200 && x! =y) x=0; 


翻译 成 图 6-41 所 示 的 代码 。 


if x < 100 goto Lo2 
ifFalse x > 200 goto Li 


ifFalse x != y goto Li 
Lo: X=0 
La 3 





图 6-41 使 用 控制 流 穿越 技术 翻译 的 if 语 句 


和 例 6.22 一 样 ， 产 生 式 PS 的 语义 规则 创建 标号 Ll1。 和 例 6.22 不 同 
的 是 ， 当 应 用 B -Bi1IB, 的 语义 规则 时 ， 继 承 属性 B.true 是 fall (B.false 为 
Li1) 。 图 6-40 中 的 规则 创建 一 个 新 标号 L>， 使 得 当 Bi 为 真 时 有 一 个 跳 转 
站 令 可 以 跳 过 B, 的 代码 。 因 此 ，Bi1.true 为 L, 而 Bi.false 为 fal， 因 为 Bj 为 
假 时 必须 计算 B, 的 值 。 


当 开 始 处 理 生 成 了 表达 式 x<100 的 产生 式 B ~Ei rel Ey 时 ，B.true=L， 
且 B.false=fall。 图 6-39 中 的 规则 使 用 这 些 继承 到 的 标号 生成 了 一 条 指令 


if x<100 goto L>。 


6.6.6 ”布尔 值 和 跳 转 代码 





本 节 讨 论 的 重点 是 用 于 改变 语句 中 控制 流 的 布尔 表达 式 。 一 个 布尔 
表达 式 的 目的 可 能 束 是 要 求 出 它 的 值 ， 如 x=true; 或 x=a<b; 的 语句 中 
的 布尔 表达 式 束 是 这 样 。 


处 理 布尔 表达 式 的 这 两 种 角色 的 一 种 简单 思路 是 首先 建立 表达 式 的 
抽象 语法 树 ， 可 以 使 用 下 面 的 两 种 方法 之 一 : 





1) 使 用 两 趟 处 理 的 方法 。 为 输入 构造 出 完整 的 抽象 语法 树 ， 然 后 
以 深度 优先 顺序 遍历 这 标 抽 象 语法 树 ， 依 据 语义 规则 的 描述 计算 得 到 翻 
译 结果 。 


2) 对 语句 进行 一 趟 处 理 ， 但 对 表达 式 进行 两 趟 处 理 。 使 用 这 种 方 
法 时 ， 我 们 将 首先 翻译 语句 while (E) Si 中 的 E， 然 后 再 处 理 S;。 然 
而 ， 要 对 E 进 行 翻译 ， 需 要 首先 建立 它 的 抽象 语法 树 ， 然 后 再 遍历 它 。 
在 下 列 文法 中 ， 用 单个 非 终 结 符 号 E 来 代表 表达 式 : 


S_,id=E; |if (E) S|while (E) S|SS 








ESEIE|E&&E |E relE|E+E| (E) lid |true |false 


非 终 结 符号 E 支 配 了 S -while(E〉Sj 的 控制 流 。 同 一 个 非 终 结 符号 
FE 在 S ,id=E 和 FE ,E+F 中 则 表示 一 个 值 。 


我 们 可 以 使 用 不 同 的 代码 生成 函数 处 理 表达 式 的 这 两 种 角色 。 假 定 
属性 E.n 表 示 对 应 于 表达 式 E 的 抽象 语法 树 结 点 ， 并 且 抽 象 语 法 树 中 的 结 
点 都 是 对 象 。 令 方法 jump 产 生 一 个 表达 式 结 点 的 跳 转 代码 ， 并 令 方 法 
rvalue 产 生计 算 结 点 的 值 的 代码 ， 该 代码 还 把 得 到 的 值 存储 在 一 个 临时 
变量 中 。 

对 于 出 现在 S -~ while (E) Si 中 的 E， 在 结 点 E.n 上 调用 方法 jump。 
方法 jump 的 实现 是 基于 图 6-37 给 出 的 关于 布尔 表达 式 的 语义 规则 。 确 切 
地 说 ， 跳 转 代 码 是 通过 调用 E.n.jump (t，f) 生成 的 ， 其 中 t 是 指向 
Si.code 的 第 一 条 指令 的 新 标号 ， 而 { 就 是 标号 S.next。 














对 于 出 现在 S id=E; 中 的 E， 在 结 点 E.n 上 调用 方法 rvalue。 如 果 E 
形 如 E1+E,，， 方 法 调用 E.n.rvalue() 按 照 6.4 节 中 讨论 的 方法 生成 代码 。 如 
果 E 形 如 Eli&&E， 我 们 首先 为 E 生 成 跳 转 代码 ， 然 后 在 跳 转 代码 的 真 假 
出 口 分 别 将 true 和 false 赋 给 一 个 新 的 临时 变量 t。 


例如 ， 赋 值 语 句 x=a<b && c<d 可 以 用 图 6-42 中 的 代码 来 实现 。 


ifFalse a < b goto Li 
ifFalse c < d goto Li 
t = true 


goto L» 
t = false 





图 6-42 通过 计算 一 个 临时 变量 的 值 来 翻译 一 个 布尔 类 型 的 赋值 语句 


6.6.7 ”6.6 节 的 练习 


练习 6.6.1: 在 图 6-36 的 语法 制导 定义 中 添加 处 理 下 列 控制 流 构 造 的 
规则 : 


1) 一 个 repeat 语 句 ，repeat S while B。 
! 2) 一 个 for 循 环 语句 ，for (SI; B; S,) Sa。 


练习 6.6.2: 现代 计算 机 试图 在 同一 时 刻 执行 多 条 指令 ， 其 中 包括 各 
种 分 文 指令 。 因 此 ， 当 计算 机 投机 性 地 预先 执行 某 个 分 文 ， 但 实际 控制 
流 却 进入 男 一 分 文 时 (此 时 所 有 预先 执行 的 投机 工作 将 被 抛弃 ) ， 付 出 
的 代价 是 很 大 的 。 因 此 我 们 希望 尽 可 能 地 减少 分 文 数 量 。 请 注意 ， 在 图 
6-35c 中 while 循 环 语句 的 实现 中 ， 每 个 迭代 有 两 个 分 文 : 一 个 是 从 条 件 B 
进入 到 循环 体 中 ， 另 一 个 分 文 跳 转 回 B 的 代码 。 基 于 尽量 减少 分 文 的 考 
上 处， 我 们 通常 更 倾向 于 将 while (B)〉S 当 作 if (B) {frepeat S until! 

(B) } 来 实现 。 给 出 这 种 翻译 方法 的 代码 布局 ， 并 修改 图 6-36 中 while 循 
环 语句 的 规则 。 


! 练习 6.6.3: 假设 C 中 存在 一 个 异 或 运算 〈 当 且 仅 当 两 个 分 量 恰 有 
一 个 为 真 时 ， 表 达 式 为 真 ) 。 按 照 图 6-37 的 风格 写 出 这 个 运算 符 的 代码 
生成 规则 。 


练习 6.6.4: 使 用 6.6.5 节 中 介绍 的 避免 goto 语 句 的 翻译 方案 ， 翻 译 下 
列表 达 式 : 











1) if (a==b && c==d || e==f) x == 1; 
2) if (a==b || c==d || e==f) x == 1; 


3)if (a==b && c==d && e==f) x == 1; 


练习 6.6.5: 基于 图 6-36 和 图 6-37 中 给 出 的 语法 制导 定义 ， 给 出 一 个 
翻译 方案 。 


练习 6.6.6: 使 用 类 似 于 图 6-39 和 图 6-40 中 的 规则 ， 修 改 图 6-36 和 网 
6-37 的 语义 规则 ， 使 之 允许 控制 流 穿越。 


! 练习 6.6.7: 练习 6.6.6 中 的 语句 的 语义 规则 产生 了 一 些 不 必要 的 标 
号 。 修 改 图 6-36 中 语句 的 规则 ， 使 之 只 创建 必要 的 标号 。 你 可 以 使 用 特 
殊 标号 deferred 来 表示 还 没有 创建 一 个 标号 。 你 的 语义 规则 必须 能 够 生 
成 类 似 于 例 6.21 的 代码 。 


! ! 练习 6.6.8: 6.6.5 节 中 讨论 了 如 何 使 用 罕 越 代码 来 尽 可 能 减少 生 
成 的 中 间 代 码 中 跳 转 指令 的 数目 。 然 而 ， 它 并 没有 充分 考虑 将 一 个 条 件 
蔡 换 为 它 的 补 的 方法 ， 例 如 将 if a < b goto Li; goto L2; 蔡 换 为 jif 
a>=b goto Ls; goto Li。 给 出 一 个 语法 制导 定义 ， 它 在 需要 时 可 以 利用 
这 种 人 蔡 换 方法 。 


6.7 回填 


为 布尔 表达 式 和 控制 流 语句 生成 目标 代码 时 ， 关 键 问题 之 一 是 将 一 
个 跳 转 指令 和 该 指令 的 目标 匹配 起 来 。 例 如 ， 对 if (B) S 中 的 布尔 表达 
式 B 的 翻译 结果 中 包含 一 条 跳 转 指令 。 当 B 为 假 时 ， 该 指令 将 跳 转 到 紧 
跟 在 S 的 代码 之 后 的 指令 处 。 在 一 赵 式 的 翻译 中 ，B 必 须 在 处 理 S 之 前 就 
翻译 完毕 。 那 么 跳 过 S$ 的 goto 指 令 的 目标 是 什么 呢 ? 在 6.6 节 中 ， 我 们 解 
决 这 个 问题 的 方法 是 将 标号 作为 继承 属性 传递 到 生成 相关 跳 转 指令 的 地 
。 但 是 ， 这 样 的 做 法 要 求 再 进行 一 趟 处 理 ， 将 标号 和 具体 地 址 绑 定 起 


本 节 将 介绍 一 种 被 称 为 回填 (backpatching) 的 补充 性 技术 ， 它 把 
一 个 由 跳 转 指 令 组 成 的 列表 以 综合 属性 的 形式 进行 传递 。 明 确 地 讲 ， 生 
成 一 个 跳 转 指令 时 暂时 不 指定 该 跳 转 指令 的 目标 。 这 样 的 指令 部 倍 放 入 
一 个 由 跳 转 指令 组 成 的 列表 中 。 等 到 能 够 确定 正确 的 目标 标号 时 才 去 填 
充 这 些 指令 的 目标 标号 。 同 一 个 列表 中 的 所 有 跳 转 指令 具有 相同 的 目标 


标号 。 





6.7.1 使 用 回填 技术 的 一 趟 式 目 标 代码 生成 








回填 技术 可 以 用 来 在 一 趟 扫描 中 完成 对 布尔 表达 式 或 控制 流 语 句 的 
目标 代码 生成 。 我 们 生成 的 目标 代码 的 形式 和 6.6 节 中 的 代码 的 形式 相 
同 ， 但 是 处 理 标号 的 方法 不 同 。 


在 本 节 中 ， 非 终结 符号 B 的 综合 属性 truelist 和 falselist 将 用 来 管理 布 
尔 表 达 式 的 跳 转 代码 中 的 标号 。 特 别 的 ，B.truelist 将 是 一 个 包含 跳 转 或 
条 件 跳 转 指 令 的 列表 ， 我 们 必须 回 这 些 指 令 中 插入 适当 的 标号 ， 也 就 是 
当 B 为 真 时 控制 流 应 该 转向 的 标号 。 类 似 地 ，B.falselist 也 是 一 个 包含 跳 
转 指 令 的 列表 ， 这 些 指令 最 终 获得 的 标号 就 是 当 B 为 假 时 控制 流 应 该 转 
癌 的 标号 。 在 生成 B 的 代码 时 ， 跳 转 到 真 或 假 出 口 的 跳 转 指令 是 不 完整 
的 ， 标 号 字段 尚未 填写 。 这 些 不 完整 的 跳 转 指令 被 保存 在 B.truelist 和 
B.falselist 所 指 的 列表 中 。 类 似 地 ， 语 句 S 的 综合 属性 S.nextlist 也 是 一 个 
跳 转 指 令 列 表 ， 这 些 指 令 应 该 跳 转 到 紧 跟 在 S$ 的 代码 之 后 的 指令 。 











更 明确 地 讲 ， 我 们 将 生成 的 指令 放 入 一 个 指令 数组 中 ， 而 标 写 就 是 
这 个 数组 的 下 标 。 为 了 处 理 跳 转 指令 的 列表 ， 我 们 使 用 下 面 三 个 函数 : 


1) makelist (i) 创建 一 个 只 包含 的 列表 。 这 里 是 指令 数组 的 下 
标 。 函 数 makelist 返 回 一 个 指向 新 创建 的 列表 的 指针 。 


2) merge〈(p1，p2) 将 p1 和 ps 指 癌 的 列表 进行 合并 ， 它 返回 的 指针 
指 回合 并 后 的 列表 。 


3) backpatch (p，i) 将 i 作 为 目标 标号 插入 到 p 所 指 列 表 中 的 各 指令 


6.7.2 ”布尔 表达 式 的 回填 





现在 我 们 构造 一 个 可 以 在 自 底 向 上 语法 分 析 过 程 中 为 布尔 表达 式 生 
成 目标 代码 的 翻译 方案 。 这 个 文法 中 有 一 个 标记 非 终结 符号 M。 它 引发 
的 语义 动作 在 适当 的 时 刻 获取 将 要 生成 的 下 一 条 指令 的 下 标 。 该 文法 如 
下 : 


B— BIllMB, |B kh MB,|!Bi|(B)|bB rel bk,|true |false 
AMf 一 上 


翻译 方案 如 图 6-43 所 示 。 


已 一 BA Do { backpatch( Bi.falselist, AT.imnstr); 
B.truelist = merge( Bi.truelist, B».truelist); 
B.falselist = B».falselist; } 


B— Bi&& MB, { backpatch(Bi.truelist, M.instr); 
B.truelist = B».truelist; 
B.falselist = merge( Bi .falselist, B».falselist); } 
已 一 !BI { B.truelist = Bi .falselist; 
B.falselist = Bi.truelist; } 
B—(B) { B.truelist = Bi.truelist: 
B.falselist = Bi.falselist; } 
B— Ei rel Eb, { B.truelist = makelist(nertinst?); 
B.falselist = makelist(nertinstr + 1): 
gen ('if’ Ei.addr rel.op E».addr 'goto _); 
gen(’goto _);} 
也 一 true { B.truelist = makelist(neztinstn); 
gen('goto -); } 
忆 一 false { B.falselist = makelist(nertinst?): 
gen('goto -);} 


Me { M.instr = nexzxtinstr; } 








图 6-43 ”布尔 表达 式 的 翻译 方案 


考虑 上 述 文法 中 对 应 于 规则 BB1IMB, 的 语义 动作 (1) 。 如 果 Bl 
为 真 ， 那 么 B 也 为 真 ， 这 样 Bi.truelist 中 的 跳 转 指令 就 成 为 B.truelist 的 一 
部 分 。 然 而 ， 如 果 Bj 为 假 ， 我 们 下 一 步 必 须 测 试 B,。 因 此 Bi.falselist 中 
的 跳 转 指令 的 目标 必定 是 B, 的 代码 的 起 始 位 置 。 这 个 位 置 使 用 标记 非 终 
结 符 写 M 获 得 。 在 即将 生成 B, 代 码 之 前 ，M 生 成 了 下 一 条 指令 的 序号 ， 
存放 在 综合 属性 M.instr 中 。 


为 了 获得 指令 序号 ， 我 们 将 产生 式 M -EE 和 语义 动作 





{M.instr=nextinstr; } 


关联 起 来 。 变 量 nextinstr 保 存 了 紧 跟 着 的 下 一 条 指令 的 序号 。 当 我 们 已 
经 看 到 了 产生 式 B -BI1IM B, 的 余下 部 分 时 ， 这 个 值 将 被 回填 到 
Bi.falselist 中 的 指令 上 《〈 即 Bi.falselist 中 的 每 条 指令 都 把 M.instr 当 作 目 标 
标号 ) 。 


BBi&& MB， 的 语义 动作 〈2) 和 动作 (1) 类 似 。B-~ ! B 的 语义 





动作 (3) 对 换 真 假 列 表 。 动 作 〈4) 只 是 忽略 括号 。 


为 简单 起 见 ， 语 义 动 作 (5) 生成 了 两 条 指令 : 一 个 条 件 转移 指令 
goto 和 一 个 无 条 件 转 移 指 令 。 它 们 的 目标 标号 都 未 填写 。 这 两 个 指令 被 
放 入 新 的 分 别 由 B.truelist 和 B.falselist 指 向 的 列表 中 。 


再 次 考虑 表达 式 


100 || % > 200 koi yg 


它 的 一 棵 注释 语法 分 析 树 如 图 6-44 所 示 。 为 了 增加 可 读 性 ， 属 性 

truelist、falselist 和 instr 分 别 用 它们 的 第 一 个 字母 表示 。 在 对 这 棵 语法 树 

进行 深度 优先 裔 历时 执行 语义 动作 。 因 为 所 有 的 动作 都 出 现在 规则 右 部 

的 最 后 ， 因 此 它们 可 以 和 自 底 向 上 语法 分 析 过 程 中 的 归 约 动作 同时 进 

(5) 将 x<100 归 约 为 B 时 ， 语 义 动 作 相 应 地 产生 两 条 
日 人 : 


100: if x < 100 goto - 
101: goto - 


B.t = {100, 104} 
B.f = {103, 105} 


en / 二 ss 


Bt = {100} | Bt = {104} 
B.f = {101} e B.f = {103, 105} 
次 小 总 入 

人 is 
B.t = {102} | Bt = {104} 
B.f = {103} c B.f = {105} 

*# | 

x > 200 4 李 


图 6-44 x<100 || x>200 && x! =y 的 注释 语法 分 析 树 
我 们 任意 地 从 100 开 始 为 指令 编号 。 产 生 式 


已 一 Bi1l|M DBP。 


中 的 标记 非 终 结 符号 M 记 录 了 nextinstr 的 值 ， 此 时 这 个 值 为 102。 使 用 产 
生 式 (5) 将 x>200 归 约 为 B 产 生 下 面 两 条 指令 





102: if x > 200 goto - 
103: goto - 


子 表达 式 x>200 对 应 于 下 面 产 生 式 中 的 Bi: 
标记 非 终结 符号 M 记 录 了 nextinstr 的 当前 值 ， 现 在 是 104。 使 用 产生 式 
(5) 将 x! =y 归 约 为 B 产 生 下 列 指令 


104: if x != y goto - 
105: goto - 


我 们 现在 使 用 B -Bi &&M B, 进 行 归 约 。 相 应 的 语义 动作 调用 
backpatch (Bi.truelist，M.instr) 将 B1 的 真 值 出 口 绑 定 到 B, 的 第 一 条 指令 
处 。 因 为 Bi.truelist 是 {102}，M.instr 是 104， 这 次 对 backpatch 的 调用 将 序 
号 104 填 写 到 102 指 令 中 。 至 今 为 止 产生 的 六 条 指令 如 图 6-45a 所 示 。 


< 100 goto - 


> 200 goto 104 


I= y goto - 





a) 将 104 回填 到 指令 102 中 之 后 


9 Goto -= 
goto 102 
if x > 200 goto 104 


EEOCO = 
if 于 l= y goto -= 
goto - 





b) 将 102 回填 到 指令 101 中 之 后 


图 6-45 ”回填 的 步骤 


和 最 后 一 次 归 约 使 用 的 产生 式 B BjIM B, 相 关联 的 语义 动作 调用 
backpatch ({101}，102〉， 得 到 的 指令 如 图 6-45b 所 示 。 


整个 表达 式 为 真 当 且 仅 当 控 制 流 到 达 100 和 104 位 置 上 的 跳 转 指令 ; 
表达 式 为 假 当 且 仅 当 控 制 流 到 达 103 和 105 位 置 上 的 跳 转 指令 。 在 后 续 的 
编译 过 程 中 ， 当 已 知 表达 式 为 真 或 假 时 分 别 应 该 做 什么 的 时 候 ， 这 些 指 
令 的 目标 将 会 被 填写 完整 。 





6.7.3 ”控制 转移 语句 


现在 我 们 使 用 回填 技术 在 一 趟 扫描 中 完成 控制 六 语句 的 翻译 。 考 碟 


由 下 列 文法 产生 的 语句 : 


9 一 这 B)9 | if(B)S elseS | while(B)S | {L}|4; 
L—» LS|S 


这 里 S 表 示 一 个 语句 ，L 是 一 个 语句 的 列表 ，A 是 一 个 赋值 语句 ，B 古 一 
个 布尔 表达 式 。 请 注意 ， 一 定 还 存在 一 些 其 他 的 产生 式 ， 比 如 那些 关于 
赋值 语句 的 产生 式 。 然 而 ， 这 里 给 出 的 这 些 产 生 式 已 经 足以 用 来 说 明 在 
控制 流 语 句 的 翻译 中 用 到 的 技术 。 


语句 过 、if-else 和 while 的 代码 布局 和 6.6 节 中 的 描述 一 样 。 我 们 给 出 
一 个 隐 含 的 假设 ， 即 指令 数组 中 的 代码 顺序 反映 了 控制 流 的 自然 流动 ， 
即 控制 从 一 条 语句 到 达 下 一 条 语句 。 假 如 没有 这 个 假设 ， 那 么 我 们 就 必 
须 明 确 插入 跳 转 指令 来 实现 自然 的 顺序 控制 流 。 


图 6-46 中 的 翻译 方案 保留 了 多 个 跳 转 指令 的 列表 ， 当 确定 了 这 些 跳 
转 指 令 的 目标 序号 后 就 会 回填 列表 。 如 图 6-43 所 示 ， 由 非 终结 符号 B 生 
成 的 布尔 表达 式 有 两 个 跳 转 指令 列表 : B.truelist 和 B.falselist。 它 们 分 别 
对 应 于 B 的 代码 的 真 假 出 口 。 由 非 终 结 符 号 S 和 LL 生成 的 语句 也 有 一 个 待 
回填 的 跳 转 指令 列表 ， 由 属性 nextlist 表 示 。 列 表 S.nextlist 中 包含 了 所 有 
跳 转 到 按照 运行 顺序 紧 跟 在 S 代 码 之 后 的 指令 的 条 件 或 无 条 件 转移 指 
令 。L.nextlist 的 定义 与 此 类 似 。 


考虑 图 6-46 中 的 语义 动作 (3) 。 产 生 式 S while (B) S; 的 代码 布 
局 如 图 6-35c 所 示 。 标 记 非 终结 符号 M 在 产生 式 


S — while Mi (B) M， 91 

















中 的 两 次 出 现 分 别 记录 了 B 的 代码 和 S1 的 代码 的 开始 处 的 指令 编号 。 它 
们 分 别 对 应 于 图 6-35c 中 的 标号 begin 和 B.true。 


M 还 是 只 有 唯一 的 产生 式 M_, e 。 图 6-46 中 的 动作 〈6) 将 属性 
MLinstr 的 值 设 为 下 一 条 指令 的 序号 。 在 while 语 名 的 循环 体 Si 执行 之 后 ， 
控制 流 回 到 此 语句 的 起 始 位 置 。 因 此 ， 在 将 while M1 (B) M2 Si 归 约 为 
S 的 时 候 ， 我 们 对 Si.nextlist 中 的 所 有 跳 转 指令 进行 回填 ， 使 得 该 列表 中 
所 有 指令 的 目标 为 序号 Mi.instr。 在 S1 的 代码 之 后 显 式 地 插入 了 一 条 跳 
转 到 B 的 代码 的 开始 处 的 指令 ， 这 是 因为 控制 流 也 有 可 能 “穿越 底部 ”。 





通过 将 B.truelist 中 的 指令 设置 为 转 同 Mo.instr， 我 们 将 B.truelist 回 填 为 Sl 
代码 的 起 始 位 置 。 


1) 5S —» if(B) MS { backpatch(B.truelist, M.inst?); 
S.nexztlist = merge(B.falselist, S1.neztlist); } 


2) 95 一 if(B) MS1N else Mo 5» 
{ backpatch( B.truelist, Mi.inst”); 
backpatch(B.falselist, M2.inst?); 
temp = merge(S1.nexztlist, N.neztlist); 
S.nexztlist = merge(temp, S2.nertlist); } 


3) 5— while Mi (B) M»51 
{ backpatch(S1.neztlist, Mi.inst?); 
backpatch( B.truelist, M».inst?7); 
S.nextlist = B.falselist; 
gen(’'goto’ Mi.instr); } 


4) S— {LL} { S.neztlist = L.neztlist; } 

5) SA; { S.neztlist = null;} 

6) M 一 { M.instr = nexztinstr; } 

7) Ne { N.neztlist = makelist(neztinst?); 


gen('goto -); } 


8) L>L:MS { backpatch(Li.nexztlist, M.inst?); 
L.neztlist = S.nertlist; } 


9) L—» 5 { L.nexztlist = S.nextlist; } 








图 6-46 语句 的 翻译 


在 为 条 件 语句 证 (B) Si else $, 生 成 代码 时 ， 我 们 可 以 看 到 更 加 有 说 
服 力 的 使 用 S.nextlist 和 L.nextlist 的 理由 。 如 果 控 制 流 “ 罕 越 * 了 Sj 的 代码 
的 底部 ， 比 如 当 S 是 一 个 赋值 语句 时 就 会 发 生 这 样 的 事情 ， 我 们 必须 在 
$1 的 代码 之 后 增加 一 条 越过 S$, 代 码 的 跳 转 指令 。 我 们 使 用 位 于 Sj 之 后 的 
另 一 个 标记 非 终结 符号 来 生成 这 个 跳 转 指令 。 假 定 这 个 标记 非 终 结 符号 
为 N， 且 其 产生 式 为 NE€ 。N 有 属性 N.nextlist， 它 是 一 个 由 N 的 语义 动 
作 (7) 生成 的 跳 转 指令 goto _ 的 序号 组 成 的 列表 。 


图 6-46 中 的 语义 动作 〈2) 处理 满 足下 列 语法 的 if-else 语 句 : 
S—if (B) Mi S1N else M,S, 


我 们 将 对 应 于 B 为 真 的 跳 转 指令 回填 为 Mi.instr， 也 就 是 S; 的 代码 的 
开始 位 置 。 类 似 地 ， 我 们 将 回填 那些 对 应 于 B 为 假 的 跳 转 指令 ， 使 它们 
跳 转 到 S, 的 代码 的 开始 位 置 。 列 表 S.nextlist 包 含 了 所 有 从 S; 和 S, 中 跳出 
es 站 (变量 temp 是 仅 用 于 合并 列表 的 
临时 变量 。 


语义 动作 (8) 和 “(9) 处 理 语句 序列 。 在 
L LMS 
中 ， 按 照 执行 顺序 紧 跟 在 Lj 的 代码 之 后 的 是 S 的 开始 指令 。 因 此 ， 列 表 


Li.nextlist 被 回填 为 代码 的 开始 位 置 ， 该 位 置 由 M.instr 给 出 。 在 LS 
中 ，L.nextlist 和 S.nextlist 相 同 。 

请 注意 ， 除 了 语义 规则 (3) 和 (7) 之 外 ， 这 些 语义 规则 中 的 任何 
地 方 都 没有 产生 新 的 指令 。 其 他 所 有 的 代码 都 是 由 赋值 语句 和 表达 式 相 
关 的 语义 动作 产生 的 。 我 们 根据 控制 流 进行 了 正确 的 回填 ， 因 此 赋值 语 
人 句 和 布尔 表达 式 的 求 值 过 程 被 正确 地 连接 了 起 来 。 


6.7.4 ” ”break 语句、continue 语 句 和 goto 语 句 





用 于 改变 程序 控制 流 的 最 基本 的 程序 设计 语言 结构 是 goto 语 句 。 在 
C 语 言 中 ， 像 goto L 这 样 的 语句 将 控制 流转 到 标号 为 L 的 指令 一 一 在 相应 
作用 域内 必须 恰好 存在 一 条 标号 为 L 的 语句 。 在 实现 goto 语 句 时 ， 可 以 
为 每 个 标 写 维护 一 个 未 完成 跳 转 指令 的 列表 ， 然 后 在 知道 这 些 指 令 的 目 
标 之 后 进行 回填 。 


Java 刻 除了 goto 语 句 。 但 是 Java 支 持 一 种 规范 化 的 跳 转 语句 ， 即 
break 语 句 。 它 使 控制 流 跳 出 外 围 的 语言 结构 。Java 中 还 可 以 使 用 
continue 语 句 。 这 个 语句 的 作用 是 触发 外 围 循 环 的 下 一 轮 迭 代 。 下 面 的 
代码 摘自 一 个 语法 分 析 右 ， 它 说 明了 简单 的 break 语 句 和 continue 语 人 句 。 








1) for ( ; ; readch() ) { 


2) if( peek == ) ) || peek == ’\t’ ) continue; 
3) else if( peek == ’\n’ ) line = line + 1; 

4) else break; 

5) } 


控制 流 会 从 第 4 行 中 的 break 语 句 跳 出 到 外 围 for- 循 环 之 后 的 下 一 个 
语句 。 控 制 流 也 会 从 第 2 行 中 的 continue 语 句 跳 转 到 计算 reach() 的 代码 ， 
然后 再 转 到 第 2 行 中 的 if 语 句 。 


如 果 S 表 示 外 围 的 循环 结构 ， 那 么 一 条 break 语 句 就 是 跳 转 到 S 代 码 
之 后 第 一 条 指令 处 的 跳 转 指令 。 我 们 可 以 按照 下 面 的 步骤 为 break 生 成 
代码 : 跟踪 外 围 循环 语句 S$， 人 名 为 该 break 语 句 生 成 未 完成 的 跳 转 指 
令 ，@@) 将 这 些 指 令 放 到 S.nextlist 中 ， 其 中 nextlist 就 是 6.7.3 节 中 讨论 的 列 
及 


企 一 个 通过 两 趟 扫描 构建 抽象 语法 树 的 编译 器 前 端 中 ，S.nextlist 可 
以 被 实现 为 对 应 于 语句 S 的 结 点 的 一 个 字段 。 我 们 可 以 在 符号 表 中 将 一 
个 特殊 的 标识 符 break 了 映射 为 表示 外 围 循环 语句 S 的 结 点 ， 以 此 来 跟踪 
S。 这 种 方法 同样 可 以 处 理 java 中 带 标号 的 break 语 句 ， 因 为 同样 可 以 用 
符号 表 来 将 这 个 标号 映射 为 对 应 于 标号 所 指 的 结构 的 语法 树 结 点 。 


如 果 不 使 用 符号 表 来 访问 S$ 的 结 皮 ， 我 们 还 可 以 在 符号 表 中 设置 一 
个 指向 S.nextlist 的 指针 。 现 在 当 明 到 一 个 break 语 名 时， 我 们 生成 一 个 未 
完成 的 跳 转 指令 ， 并 通过 符 写 表 查 找到 nextlist， 然 后 把 这 个 跳 转 指令 加 
入 到 这 个 列表 中 。 这 个 nextlist 将 按照 6.7.3 市 中 讨论 的 方法 进行 回填 。 


continue 语 句 的 处 理 方 法 和 break 语 句 的 处 理 方 法 类 似 。 两 者 之 间 的 
主要 区 别 在 于 生成 的 跳 转 指 令 的 目标 不 同 。 
6.7.5 ”6.7 节 的 练习 


练习 6.7.1: 使 用 图 6-43 中 的 翻译 方案 翻译 下 列表 达 式 。 给 出 每 个 子 
表达 式 的 truelist 和 falselist。 你 可 以 假设 第 一 条 被 生成 的 指令 的 地 址 是 
100。 


1) a==b && (c==d || e==f) 
2) (a==b || c==d) || e==f 


3) (a==b && c==d) && e==f 


练习 6.7.2: 图 6-47a 中 给 出 了 一 个 程序 的 摘要 。6-47b 概 述 了 使 用 图 
6-46 中 的 回填 翻译 方案 生成 的 三 地 址 代码 的 结构 。 这 里 ，ij ~~ig 是 每 个 
code 区 域 的 第 一 条 被 生成 指令 的 标号 。 当 我 们 实现 这 个 翻译 时 ， 我 们 为 
每 个 布尔 表达 式 E 维 护 了 两 个 列表 ， 表 中 给 出 E 的 代码 中 的 一 些 位 置 。 
我 们 分 别 用 E.true 和 E.false 来 表示 这 两 个 列表 。 对 于 E.true 列 表 中 的 那些 
指令 位 置 ， 我 们 最 终 要 加 入 当 E 为 真 时 控制 流 应 该 到 达 的 语句 的 标号 。 
E.false 是 类 似 的 存放 特定 位 置 号 的 列表 ， 我 们 要 在 这 些 位 置 上 加 入 当 发 
现 E 为 假 时 控制 流 应 该 到 达 的 标号 。 同 时 ， 我 们 还 为 语句 S 维 护 了 一 个 位 
置 的 列表 。 我 们 必须 在 这 些 位 置 上 加 入 当 S 执 行 完毕 之 后 控制 流 应 该 到 
达 的 标号 。 请 给 出 最 终 将 代 蔡 下 列 各 个 列表 中 的 位 置 的 值 〈( 即 ij ~ig 中 
的 某 个 标号 ) 。 


(1) Esfalse (2) Ss.next (3) E4.false (4) Si.next (5) 
E,.true 


练习 6.7.3: 当 使 用 图 6-46 中 的 翻译 方案 对 图 6-47 进 行 翻译 时 ， 我 们 
为 每 条 语句 创建 S.next 列 表 。 一 开始 是 赋值 语句 $1、S，、S3， 然 后 逐步 
处 理 越 来 越 大 的 if 语 句 、if-else 语 句 、while 语 句 和 语句 块 。 在 图 6-47 中 有 
5 个 这 种 类 型 的 结构 语句 : 


Sg: 





1: Code for Ei 

: i2: Code for 五 > 
while (Es) 13: Code for Es 
S1; 14: Code for '91 

ys: QCode for Ea 


if (Bs) det Code for Bo 
S28 i7: Code for 93 


D3 


a) b) 
图 6-47 练习 6.7.2 的 程序 的 控制 流 结构 


3 while CE3 ) 91。 
if (Es) S20o 
: 包含 Ss 和 S53 的 语句 块 。 


be 语句 J 站 (FE,) Sa else 96。 


整个 程序 。 


对 于 这 些 结构 语句 ， 我 们 可 以 通过 一 个 规则 用 其 他 的 Sj.next 列 表 以 
及 程序 中 的 表达 式 的 列表 EE.true 和 El.false 构 造 出 S;.next。 给 出 计算 下 列 
next 列 表 的 规则 : 


(1) S4.next (2) Ss.next (3) Se.next (4) Sz.next (5) 


Se.next 


6.8 switch 语句 


很 多 语言 都 使 用 “switch” 或 “case” 语 句 。 我 们 的 switch 语 句 的 语法 如 
图 6-48 所 示 。 语 句 中 包含 一 个 待 求 值 的 选择 表达 式 E， 后 面 是 该 表达 式 
可 能 取 的 n 个 常量 值 Vj，V，，...，V,。 语 句 中 也 可 能 包含 一 个 默 
认 “ 值 "?， 当 其 他 值 都 不 和 选择 表达 式 的 值 下 配 时 ， 束 用 这 个 默认 值 来 匹 
配 。 


Switch (EE) 
case V1: 01 
case |»: 5» 


ESG V3 Sy 
default: 95， 





图 6-48 Switch 语句 的 语法 
6.8.1 _ switch 语句 的 翻译 


一 个 switch 语 句 的 预期 翻译 结果 是 完成 如 下 工作 的 代码 : 
1) 计算 表达 式 E 的 值 。 


2) 在 case 列 表 中 寻找 与 表达 式 值 相同 的 值 V。 回 顾 一 下 ， 当 在 case 
列表 中 明确 列 出 的 值 都 不 和 表达 式 匹 配 时 ， 就 用 默认 值 和 表达 式 匹 配 。 


3) 执行 和 匹配 值 关联 的 语句 Sj， 


步 双 (2) 是 一 个 n 路 分 文 ， 它 可 以 采取 多 种 方法 实现 。 如 果 case 的 





数目 较 少 ， 比 如 不 多 于 10 个 ， 那 么 可 以 使 用 一 个 条 件 跳 转 指令 序列 来 实 
0 并 跳 转 到 这 个 值 对 应 的 语 
句 的 代码 。 


实现 这 个 条 件 跳 转 指令 序列 的 一 个 简洁 的 方法 是 创建 一 个 对 照 关系 
表 。 表 中 的 每 一 个 关系 都 包含 了 一 个 常量 值 和 相应 语句 代码 的 标号 。 在 
运行 时 刻 ， 表 达 式 自身 的 值 以 及 默认 语句 的 标号 被 放 在 对 照 表 的 末端。 
编译 器 生成 一 个 简单 循环 ， 把 表达 式 的 值 和 表 中 的 每 个 值 进行 比较 。 我 
们 已 经 保证 了 当 找 不 到 其 他 匹配 时 ， 最 后 一 个 条 目 〈 默 认 值 条 目 ) 一 定 


会 匹配 。 


如 果 值 的 个 数 超过 10 个 或 更 多 ， 那 么 更 高 效 的 方式 是 为 这 些 值 构造 
一 个 散 列 表 。 这 个 表 的 条 目 是 各 个 分 文 语句 的 标号 。 如 果 没 有 找到 对 应 
于 switch 表 达 式 的 值 的 条 目 ， 就 会 有 一 条 跳 转 指令 转 到 默认 语句 。 


还 有 一 种 常见 的 特殊 情况 ， 它 的 实现 可 以 比 n 路 分 支 更 加 高 效 。 如 
果 表 达 式 的 值 位 于 某 个 较 小 的 范围 内 ， 比 如 从 min 到 max， 并 且 不 同和 常 
量 值 的 总 数 接近 max-min。 那 么 我 们 可 以 构造 一 个 包含 max-min 个 “ 桶 ”的 
数组 ， 其 中 棚 j-min 包 含 了 对 应 于 值 j 的 语句 的 标号 ; 任何 没有 被 填 入 对 
应 标号 的 “ 桶 ”中 包含 了 默认 标号 。 


执行 switch 语 句 时 ， 首 先 计算 表达 式 并 获得 值 )， 检 查 它 是 否 在 min 
到 max 的 范 轩 之 内 ， 如 是 则 间接 跳 转 到 侦 移 量 为 j-min 的 条 目 中 的 标 吕 。 
例如 ， 如 果 表 达 式 的 类 型 是 字符 型 ， 我 们 可 以 创建 一 个 包含 128 个 条 目 
(根据 具体 的 字符 集 ， 条 目 个 数 可 有 不 同 〉 的 表 ， 并 且 不 进行 范围 检查 
直接 进行 控制 流 跳 转 。 











6.8.2 switch 语句 的 语法 制导 翻译 


图 6-49 中 的 中 间 代 码 是 图 6-48 中 的 switch 语 句 的 一 个 近似 翻译 结 
果 。 所 有 的 测试 都 出 现在 代码 的 末端 ， 因 此 一 个 简单 的 代码 生成 器 就 可 
以 识别 出 多 路 分 支 ， 并 使 用 本 节 开始 时 介绍 的 多 种 实现 方法 中 最 合适 的 
实现 方法 来 生成 高 效 的 代码 。 








code to evaluate EF into t 
goto test 
code for $1 
goto next 
code for $5» 
goto next 


code for S»,_1 


goto next 
code for S$», 
goto next 
if t = V1 goto Li 
if t = V2» goto L» 


goto Ln 





图 6-49 一 个 switch 语 名 的 翻译 结果 


图 6-50 中 显示 的 是 一 个 更 直接 的 代码 序列 。 它 要 求 编译 器 进行 更 加 
深入 的 分 析 ， 才 能 找到 最 高 效 的 实现 。 值 得 注意 的 是 ， 在 一 趟 式 编译 器 
中 ， 将 分 文 语 句 放 在 开始 的 位 置 会 造成 不 便 ， 因 为 编译 器 此 时 还 没有 碰 
到 各 个 语句 Si;， 无 法 生成 转 同 各 个 语句 的 代码 。 





code to evaluate E into t 
if t != Vi goto Li 
code for 91 

goto next 

if t != VY2 goto L2 
code for S$» 

goto next 


i tt l= Vii goto Li 
code for Sn»,_1 

goto next 

code for 9， 





图 6-50 ”一 个 switch 语 句 的 另 一 种 翻译 


为 了 翻译 成 如 图 6-49 所 示 的 形式 ， 当 我 们 看 到 关键 字 switch 的 时 
候 ， 我 们 生成 两 个 新 标号 test 和 next 以 及 一 个 临时 变量 t(。 然 后 ， 当 我 们 
对 表达 式 E 进 行 语法 分 析 的 时 候 ， 生 成 计算 E 值 并 将 其 保存 到 t 的 代码 。 
处 理 完 E 之 后 ， 产 生 跳 转 指令 goto test。 


当 我 们 看 见 各 个 case 关 键 字 时 ， 就 创建 一 个 新 的 标号 L,， 并 将 其 加 
入 符号 表 。 我 们 将 在 一 个 仅 用 于 存放 case 分 支 的 队列 中 放 入 一 个 值 -标号 
对 。 这 个 值 -标号 对 由 常量 值 V 和 L， (或 者 是 指向 符号 表 中 L 的 条 目的 指 
针 ) 组 成 。 我 们 逐个 处 理 语 名 case Vj: Si， 生成 附加 于 Si 的 代码 上 的 标 
号 Li。 最 后 生成 跳 转 指令 goto next。 


当 编 译 占 到 达 switch 语 句 的 末端 时 ， 我 们 已 经 可 以 生成 n 路 分 支 的 代 
码 了 。 读 取 值 -标号 对 的 队列 ， 我 们 就 可 以 生成 形 如 图 6-51 所 示 的 三 地 址 
语句 序列 。 其 中 t 是 一 个 保存 选择 表达 式 E 的 值 的 临时 变量 ,Li 为 默认 语 
句 的 标 写 。 








case t ViLi 
case t \» Lo 


case t VV,_] i 
CAaBs tt Ls 
next: 





图 6-51 用 来 翻译 switch 语 名 的 case 三 地 址 代码 指令 


指令 case tVi Li 和 图 6-49 中 的 if t=Vi goto 上 含义 相同 ， 但 是 case 
指令 更 加 容易 被 最 终 的 代码 生成 器 探测 到 ， 从 而 对 这 些 指 令 进行 条 种 特 
殊 处 理 。 在 代码 生成 阶段 ， 根据 分 文 的 个 数 以 及 这 些 值 是 人 否 在 一 个 较 小 
的 范围 内 ， 这 些 case 语 句 的 序列 可 以 被 翻译 成 最 高 效 的 n 路 分 文 。 


6.8.3 ”6.8 节 的 练习 


! 练习 6.8.1: 为 将 Switch 语句 翻译 成 一 个 如 图 6-51 所 示 的 case 语 句 
序列 ， 翻 译 器 需要 在 处 理 switch 语 句 的 源 代码 时 创建 一 个 由 值 -标号 对 组 
成 的 列表 。 我 们 可 以 使 用 一 个 附加 的 翻译 方案 来 做 到 这 一 点 ， 这 个 方案 
只 搜集 这 些 值 -标号 对 。 给 出 一 个 语法 制导 定义 的 概要 摘 述 。 该 SDD 可 
以 生成 值 -标号 对 照 表 ， 同 时 还 为 各 个 语句 Si 生成 代码 。 这 里 的 Sj 是 各 个 
case 对 应 的 动作 。 








6.9 过 程 的 中 间 代 人 三 





过 程 及 其 实现 将 在 第 7 章 中 与 运行 时 刻 的 变量 存储 管理 一 并 详细 地 
讨论 。 本 节 我 们 使 用 术语 “函数 "来 表示 带 有 返回 值 的 过 程 。 我 们 将 简单 
讨论 函数 声明 以 及 函数 调用 的 三 地 址 代码 。 在 三 地 址 代码 中 ， 函 数 调用 
被 拆 分 为 准备 进行 调用 时 的 参数 求 值 ， 然 后 是 调用 本 身 。 为 简单 起 见 ， 
我 们 假定 参数 使 用 值 传递 的 方式 。1.6.6 节 中 曾 讨论 过 参数 传递 方法 。 


回国 依 定 是 一 个 可 数 数组 ， 并 且 f 是 一 个 从 整数 到 整数 的 函数 。 屠 
义 赋值 语句 





n=f (a [i] ) ; 


可 以 被 翻译 成 如 下 的 三 地 址 代码 。 


]) ti1 = i*4 

2) t» = alL tl]J 
3) Pparam t» 

da) Es SS all fs 上 
8) i, = Ts 


如 6.4 节 中 讨论 的 ， 前 两 行 计算 表达 式 a [i] 的 值 ， 并 将 结果 存放 到 
临时 变量 tz 中 。 第 3 行将 tz 作 为 实在 参数 用 于 第 4 行 中 对 {f 的 调用 。 这 个 调 
用 只 带 有 一 个 参数 。 第 4 行 中 函数 调用 的 返回 值 被 赋 给 ta。 第 5 行将 返回 
值 赋 给 n。 


图 6-52 中 的 产生 式 可 以 生成 函数 定义 和 函数 调用 。〈 这 个 文法 会 在 
最 后 一 个 参数 之 后 生成 一 个 不 必要 的 逗 号， 但 是 它 已 经 足以 说 明 翻 译 的 
方法 了 。) 如 6.3 贡 所 述 ， 非 终结 符号 D 和 IT 分别 生成 声明 和 类 型 。 由 D 
生成 的 函数 定义 包含 了 关键 字 define、 返 回 类 型 、 函 数 名 、 括 号 中 的 形 
式 参 数 以 及 由 一 个 位 于 人 花 括 号 中 的 语句 组 成 的 函数 体 。 非 终结 符号 F 生 
成 0 个 或 多 个 形式 参数 ， 每 个 形式 参数 包括 一 个 类 型 和 一 个 标识 人 符 。 非 
终结 符号 S 和 FE 分 别 生成 语句 和 表达 式 。S 的 产生 式 增 加 了 一 条 人 返回 表达 














式 值 的 语句 。E 的 产生 式 中 增加 了 函数 调用 ， 调 用 中 的 实在 参数 由 A 生 


成 。 


一 个 实在 参数 就 是 一 个 表达 式 。 


define T id (FF){So} 
eE | id ,天 


returnk, 
id(A) 
Ee|E,A 





图 6-52 在 源 语言 中 加 入 函数 
函数 定义 和 函数 调用 可 以 用 本 章 中 已 经 介绍 过 的 概念 进行 翻译 。 


函数 类 型 。 一 个 函数 类 型 必须 包含 它 的 返回 值 类 型 和 形式 参数 类 
型 。 令 void 是 一 个 表示 没有 参数 或 没有 返回 值 的 特殊 类 型 。 因 此 ， 
返回 一 个 整数 的 函数 popO 的 类 型 是 “从 void 到 integer 的 函数 "”。 函 数 
人 
来 雪 示 。 

符号 表 。 设 编译 器 处 理 到 一 个 函数 定义 时 ， 最 上 层 的 符号 表 为 S。 
函数 名 被 放 入 s， 以 便 在 程序 的 其 他 部 分 使 用 。 函 数 的 形式 参数 可 
以 用 类 似 于 记录 字段 名 的 方式 来 处 理 〈 见 图 6-18) 。 在 D 的 产生 式 
0 
号 

















Env.push(top); top = new Env(top); 


这 个 新 符号 表 被 称 为 t。 注 意 ，top 被 作为 参数 传递 到 new Env (top) ， 
因此 新 的 符号 表 (t 可 以 被 链接 到 先前 的 符号 表 s。 新 的 符号 表 t 用 于 这 个 函 
数 的 函数 体 的 翻译 。 在 这 个 函数 体 被 翻译 完成 之 后 ， 我 们 恢复 到 先前 的 


太 丰 品 


符号 表 s。 


。 类 型 检查 。 在 表达 式 中 ， 一 个 函数 和 运算 符 的 处 理 方法 相同 。 因 此 


在 6.5.2 节 中 讨论 的 类 型 检查 规则 〈 包 括 目 动 类 型 转换 ) 仍然 可 用 。 
例如 ， 如 果 f 是 一 个 带 有 一 个 实数 型 参数 的 函数 ， 那 么 在 函数 调用 
f (2) 时 ， 整 数 2 将 被 转换 成 实 型 数 。 

函数 调用 。 当 为 一 个 国 数 调用 id (E，E，...，E) 生成 三 地 址 指令 
的 时 候 ， 只 需要 生成 对 各 个 参数 E 求 值 的 三 地 址 指令 ， 或 者 生成 将 
各 个 参数 E 归 约 为 地 址 的 三 地 址 指令 ， 然 后 再 为 每 个 参数 生成 一 

条 param 指 令 即 可 。 如 果 我 们 不 愿 将 参数 计算 指令 和 param 指 令 混 在 
一 起 ， 可 以 将 每 个 表达 式 E 的 属性 E.addr 存 放 到 一 个 数据 结构 〈 比 
如 队列 ) 中 。 一 旦 所 有 的 表达 式 都 翻译 完成 ， 我 们 就 可 以 在 清空 队 
列 的 同时 生成 param 指 令 。 











过 程 是 程序 设计 语言 中 重要 且 常 用 的 编程 结构 ， 因 此 编译 占 必 须 为 
过 程 调 用 和 返回 生成 良好 的 代码 。 用 于 处 理 过 程 的 参数 传递 、 调 用 和 返 
回 的 运行 时 刻 例 程 是 运行 时 刻 支 持 系 统 的 一 部 分 。 运 行 时 刻 支 持 机 制 将 
在 第 7 章 中 讨论 。 


6.10 ”第 6 章 总 结 


I: 


本 章 中 介绍 的 技术 可 以 被 综合 起 来 ， 构 造 一 个 简单 的 编译 右前 站 


比如 附录 A 中 的 那个 编译 器 前 端 。 编 译 器 的 前 端 可 以 增 量 式 地 进行 构 


选择 一 个 中 间 表 示 形 式 : 中 间 表 示 形 式 通常 是 一 个 图 形 表示 方法 和 
三 地 址 代码 的 组 合 。 比 如 在 语法 树 中 ， 图 中 的 结 点 表示 一 个 程序 构 
造 ， 而 各 个 子 结 点 表示 其 子 构造 。 三 地 址 代码 的 名 字源 于 它 的 x=y 
op z 的 形式 。 每 条 指令 至 多 有 一 个 运算 符 。 男 外 还 有 一 些 用 于 控制 
流 的 三 地 址 指令 。 

翻译 表达 式 : 通过 在 各 个 形 如 E -El op E, 的 产生 式 中 加 入 语义 动 

作 ， 带 有 复杂 运算 的 表达 式 可 以 被 分 解 成 一 个 由 单一 运算 组 成 的 序 
列 。 这 些 动作 或 者 创建 一 个 E 的 结 点 ， 此 结 点 的 子 结 点 为 E1 和 E，; 

或 者 生成 一 条 三 地 址 指令 ， 该 指令 对 El 和 E, 的 地 址 应 用 运算 符 op， 
0 


检查 类 型 : 一 个 表达 式 E1 op FE; 的 类 型 是 由 运算 符 op 以 及 El 和 E, 的 
类 型 决定 的 。 自 动 类 型 转换 (coercion) 是 指 隐 式 的 类 型 转换 ， 例 
如 从 integer 转 换 到 float。 中 间 代 码 中 还 包含 了 显 式 的 类 型 转换 ， 以 
保证 运算 分 量 的 类 型 和 运算 符 的 期 符 类 型 精确 匹配 。 

使 用 符号 表 来 实现 声明 : 一 个 声明 指定 了 一 个 名 字 的 类 型 。 一 个 类 
型 的 宽度 是 指 存放 该 类 型 的 变量 所 需要 的 存储 空间 。 使 用 宽度 ， 一 
个 变量 在 运行 时 刻 的 相对 地 址 可 以 计算 为 相对 于 某 个 数据 区 域 的 开 
始 地 址 的 偏 移 量 。 每 个 声明 都 会 将 一 个 名 字 的 类 型 和 相对 地 址 放 入 
符号 表 ， 这 样 当 这 个 名 字 后 来 出 现在 一 个 表达 式 中 时 ， 翻 译 器 就 可 
以 获取 这 些 信息 。 

将 数组 扁平 化 : 为 实现 快速 访问 ， 数 组 元 素 被 存放 在 一 段 连续 的 空 
间 内 。 数 组 的 数组 可 以 被 局 平 化 ， 当 作 各 个 元 素 的 一 维 数 组 进行 处 
理 。 数 组 的 类 型 用 于 计算 一 个 数组 元 素 相 对 于 数组 基地 址 的 偏 移 

量 。 

为 布尔 表达 式 产 生 跳 转 代码 : 在 短路 (或 者 说 跳 转 ) 代码 中 ， 布 尔 
表达 式 的 值 被 隐 含 在 代码 所 到 达 的 位 置 中 。 因 为 布尔 表达 式 B 第 第 
被 用 于 决定 控制 流 ， 例 如 在 ff (B〉S 中 就 是 这 样 ， 因 此 跳 转 指令 是 






































有 用 的 。 只 要 使 得 程序 正确 地 跳 转 到 代码 t=true 或 t=flase 处 ， 就 
可 以 计算 出 布尔 值 ， 其 中 的 t 是 一 个 临时 变量 。 使 用 跳 转 标 号 ， 通 
过 继承 对 应 于 一 个 布尔 表达 式 的 真 假 出 口 的 标号 ， 就 可 以 对 布尔 表 
达 式 进行 翻译 。 常 量 true 和 false 分 别 被 翻译 成 跳 转 到 真 值 出 口 和 假 
值 出 口 的 指令 。 

用 控制 流 实现 语句 : 通过 继承 next 标 号 就 可 以 实现 语句 的 翻译 ， 其 
中 next 标 记 了 这 个 语句 的 代码 之 后 的 第 一 条 指令 。 翻 译 条 件 语句 
SS 证 (B) Si 时 ， 只 需要 将 一 个 标记 了 Si; 的 代码 起 始 位 置 的 新 标号 
和 S.next 分 别 作为 B 的 真 值 出 口 和 假 值 出 口传 递 给 其 他 处 理 程序 。 
可 以 选择 使 用 回填 技术 : 回填 是 一 种 为 布尔 表达 式 和 语句 进行 一 趟 
式 代码 生成 的 技术 。 其 基本 思想 是 维护 多 个 由 不 完整 跳 转 指令 组 成 
的 列表 ， 在 同一 列表 中 的 指令 具有 同样 的 跳 转 目标 。 当 目标 位 置 已 
知 时 ， 将 为 相应 列表 中 的 所 有 指令 填 入 这 个 目标 。 

实现 记录 : 记录 或 类 中 的 字段 名 可 以 当 作 声明 序列 进行 处 理 。 一 个 
记录 类 型 包含 了 关于 它 的 各 个 域 的 类 型 和 相对 地 址 的 信息 。 可 以 使 
用 一 个 符号 表 对 象 来 实现 这 个 目的 。 
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[ 们 参见 Aho，A.V. 、J.E. Hopcroft 和 J.D. Ullman 所 著 的 《数据 结构 
与 算法 》 (Data Structures and Algorithms，Addison-Wesley 出 版 社 
1983 年 出 版 ) 。 其 中 有 关于 支持 词典 功能 的 数据 结构 的 讨论 。 


[2]2. 8. 3 节 曾经 提出 ， 左 值 和 右 值 分 别 表示 赋值 左 / 右 部 。 

[3] 类 型 名 代表 类 型 表达 式 ， 因 此 可 能 形成 隐 式 的 环 ， 见 “类 型 名 
和 递归 类 型 ”部 分 。 如 果 到 达 类 型 名 的 边 被 重 定 向 到 该 名 字 对 应 的 类 型 
表达 式 ， 那 么 得 到 的 图 中 就 可 能 因为 存在 递归 类 型 而 出 现 环 。 


[4| 在 C 或 Ct++ 中 ， 如 果 所 有 的 指针 有 具有 相同 的 宽度 ， 那 么 指针 的 存 
储 分 配 就 比较 简单 。 其 原因 是 我 们 可 以 在 知道 它 所 指向 对 象 的 类 型 之 前 


就 为 它 分 配 存储 空间 。 


[51 在 语法 制导 定义 中 ，gen 构 造 出 一 条 指令 0 它 。 在 翻译 方案 
中 ，gen 构 造 出 一 条 指令 ， 并 增 量 地 将 它 添加 到 指令 流 中 去 。 


[6] 即 使 我 们 在 确定 类 型 时 需要 某 些 上 下 文 信息 ， 我 们 仍 将 合 
A eh EE 被 赋予 同一 个 名 
， 在 某 些 语言 中 ， 我 们 还 需要 考虑 E1+E? 的 上 下 文才 能 确定 其 类 型 


[7] 在 有 些 应 用 中 ， 对 一 个 变量 和 一 个 包含 该 变量 的 表达 式 进行 合 
一 是 错误 的 。 算 法 6. 19 允 许 这 种 替换 。 


[8] 如 果 严 格 地 按照 上 面 的 语义 规则 来 实现 ， 这 些 语义 规则 将 产生 
很 多 标号 ， 并 可 能 在 一 个 三 地 址 指令 上 附加 多 个 标号 。6.7 节 中 介绍 的 
回填 技术 只 在 必要 的 时 候 创 建 标号 。 处 理 这 个 问题 的 另 一 种 方法 是 在 后 
续 的 优化 步骤 中 消除 不 必要 的 标号 。 


[9] 在 CG 和 Java 中 ， 表 达 式 中 可 能 包含 赋值 语句 ， 因 此 即使 B. true 和 
B. false 都 为 fal1， 也 必 须 为 子 表达 式 E1 和 E, 生 成 代码 。 如 果 必 要 ， 无 
用 代码 可 以 在 优化 阶段 被 清除 。 


第 7 革 ”运行 时 刻 环 境 


编译 器 必须 准确 地 实现 源 程序 语言 中 包含 的 各 个 抽象 概念 。 这 些 抽 
象 概念 通常 包括 我 们 在 1.6 节 中 曾经 讨论 过 的 那些 概念 ， 如 名 字 、 作 用 
域 、 绑 定 、 数 据 类 型 、 运 算 符 、 过 程 、 参 数 以 及 控制 流 构造 。 编 译 器 还 
必须 和 操作 系统 以 及 其 他 系统 软件 协作 ， 在 目标 机 上 支持 这 些 抽象 概 


JU Oo 


为 了 做 到 这 一 点 ， 编 译 器 创建 并 管理 一 个 运行 时 刻 环境 (run-time 
environment) ， 它 编译 得 到 的 目标 程序 就 运行 在 这 个 环境 中 。 这 个 环境 
处 理 很 多 事务 ， 包 括 为 在 源 程 序 中 命名 的 对 象 分 配 和 安排 存储 位 置 ， 确 
定 目 标 程 序 访问 变量 时 使 用 的 机 制 ， 过 程 间 的 连接 ， 参 数 传递 机 制 ， 以 
及 与 操作 系统 、 输 入 输出 设备 及 其 他 程序 的 接口 。 


本 章 的 两 个 主题 是 存储 位 置 的 分 配 和 对 变量 及 数据 的 访问 。 我 们 将 
详细 地 讨论 存储 管理 ， 包 括 栈 分 配 、 扒 管理 和 垃圾 回收 。 我 们 将 在 下 一 
章 中 介绍 为 多 种 常见 语言 构造 生成 目标 代码 的 技术 。 











7.1 存储 组 织 





从 编译 器 编写 者 的 角度 来 看 ， 正 在 执行 的 目标 程序 在 它 目 己 的 逻辑 
地 址 空间 内 运行 ， 其 中 每 个 程序 值 都 在 这 个 空间 中 有 一 个 地 址 。 对 这 个 
逻辑 地 址 空间 的 管理 和 组 织 是 由 编译 器 、 操 作 系 统 和 目标 机 共同 完成 
的 。 操 作 系 统 将 逻辑 地 址 映射 为 物理 地 址 ， 而 物理 地 址 对 整个 内 存 空间 


» 


编 址 


一 个 目标 程序 在 逻辑 地 址 空间 的 运行 时 刻 映 像 包 含 数据 区 和 代码 
区 ， 如 图 7-1 所 示 。 某 个 语言 《比如 C++) 在 茶 个 操作 系统 《比如 
Linuxz) 上 的 编译 需 可 能 按照 这 种 方式 划分 存储 空间 。 





代码 区 


堆 区 





图 7-1 运行 时 刻 内 存 被 划分 成 代码 区 和 数据 区 的 典型 方式 


在 本 书 中 ， 我 们 假定 运行 时 刻 存 储 是 以 多 个 连续 字 节 块 的 方式 出 现 
的 ， 其 中 字 市 是 内 存 的 最 小 编 址 单元 。 一 个 字 市 包含 8 个 二 进 制 位 ，4 个 








字 节 构成 一 个 机 器 字 。 多 字 节 数 据 对 象 总 是 存储 在 一 段 连续 的 字 节 中 ， 
并 把 第 一 个 字 节 作为 它 的 地 址 。 


第 6 音 中 讨论 过 ， 一 个 名 字 所 需要 的 存储 空间 大 小 是 由 它 的 类 型 决 
定 的 。 基 本 数据 类 型 ， 比 如 字符 、 整 数 或 浮 点 数 ， 可 以 存储 在 整数 个 字 
节 中 。 聚 合 类 型 〈 比 如 数组 或 结构 ) 的 存储 空间 大 小 必须 足以 存放 这 个 
类 型 的 所 有 分 量 。 


数据 对 象 的 存储 布局 受 目 标 机 的 寻 址 约束 的 影响 很 大 。 在 很 多 机 絮 
中 ， 执 行 整数 加 法 的 指令 可 能 要 求 整数 是 对 齐 的 ， 也 束 是 说 这 些 数 必 须 
被 放 在 一 个 能 够 被 4 整除 的 地 址 上 。 尽 管 在 C 语 言 或 者 类 似 的 语言 中 一 个 
有 10 个 字符 的 数组 只 需要 能 够 存放 10 个 字符 的 空间 ， 但 是 编译 器 可 能 为 
了 对 齐 而 给 它 分 配 12 个 字 市 ， 其 中 的 两 个 字 节 未 使 用 。 因 为 对 齐 的 原因 
而 产生 的 闲置 空间 称 为 补 白 (padding) 。 如 果 空 间 比较 紧张 ， 编 译 器 
可 能 会 压缩 数据 以 消除 补 白 。 但 是 ， 在 运行 时 刻 可 能 需要 额外 的 指令 来 
定位 被 压缩 数据 ， 使 得 机 器 在 操作 这 些 数 据 时 就 好 像 它 们 是 对 齐 的 。 


生成 的 目标 代码 的 大 小 在 编译 时 刻 就 已 经 固定 下 来 了 ， 因 此 编译 器 
可 以 将 可 执行 目标 代码 放 在 一 个 静态 确定 的 区 域 : 代码 区 。 这 个 区 通 第 
位 于 存储 的 低 器 。 类 似 地 ， 程 序 的 茶 些 数据 对 象 的 大 小 可 以 在 编译 时 刻 
知道 ， 它 们 可 以 被 放置 在 男 一 个 称 为 静态 区 的 区 域 中 ， 该 区 域 可 以 被 静 
态 确 定 。 放 置 在 这 个 区 域 的 数据 对 象 包括 全 局 常量 和 编译 如 产生 的 数 
据 ， 比 如 用 于 支持 垃圾 回收 的 信息 等 。 之 所 以 要 将 尽 可 能 多 的 数据 对 象 
进行 静态 分 配 ， 是 因为 这 些 对 象 的 地 址 可 以 被 编译 到 目标 代码 中 。 在 
Fortran 的 早期 版 本 中 ， 所 有 数据 对 象 都 可 以 进行 静态 分 配 。 


为 了 将 运行 时 刻 的 空间 利用 率 最 大 化 ， 故 外 两 个 区 域 一 一 栈 和 堆 被 
放 在 剩余 地 址 空间 的 相对 两 器 。 这 些 区 域 是 动态 的 ， 它 们 的 大 小 会 随 独 
程序 运行 而 改变 。 这 两 个 区 域 根据 需要 癌 对 方 增长 。 栈 区 用 来 存放 称 为 
活动 记录 的 数据 结构 ， 这 些 活动 记录 在 函数 调用 过 程 中 生成 。 


在 实践 中 ， 栈 问 较 低地 址 方 辐 增长 ， 而 堆 向 较 蜗 地 址 方 同 增 长 。 然 
而 ， 在 本 章 及 下 一 半 中 ， 我 们 将 假定 栈 同 较 高 地 址 方 辐 增 长 ， 以 便 我 们 
能 够 在 所 有 例子 中 方便 地 使 用 正 的 偏 移 量 。 

我 们 将 在 下 一 节 看 到 ， 一 个 活动 记录 用 于 在 一 个 过 程 调 用 发 生 时 记 


录 有 关机 器 状态 的 信息 ， 例 如 程序 计数 右 和 机 需 寄 存 器 的 值 。 当 控制 从 
该 次 调用 返回 时 ， 相 关 寄 存 右 的 值 被 恢复 ， 程 序 计数 器 被 设置 成 指 问 紧 



























































跟 在 这 次 调用 之 后 的 点 ， 然 后 调用 过 程 的 活动 就 可 以 重新 开始 。 如 有 果 一 
个 数据 对 象 的 生命 周期 包含 在 一 次 活动 的 生命 期 中 ， 那 么 该 对 象 可 以 和 
其 他 关于 该 活动 的 信息 一 起 被 分 配 到 栈 区 上 。 


很 多 程序 设计 语言 文 持 程 序 员 通 过 程序 控制 人 工分 配 和 回收 数据 对 
象 。 例 如 ，C 语 言 中 的 malloc 和 free 函 数 可 以 用 来 获取 及 释放 任意 存储 
块 。 堆 区 被 用 来 管理 这 种 具有 长 生命 周期 的 数据 。7.4 节 中 将 讨论 多 种 
可 以 用 来 维护 堆 区 的 存储 管理 算法 。 








静态 和 动态 存储 分 配 


数据 在 运行 时 刻 环境 中 的 内 存 位 置 的 布局 及 分 配 是 存储 管理 的 关键 
问题 。 这 些 问 题 需要 谨慎 对 待 ， 因 为 程序 文本 中 的 同一 个 名 字 可 能 在 运 
行 时 刻 指向 不 同 的 存储 位 置 。 两 个 形容 词 静 态 〈static) 和 动态 
(dynamic) 分 别 表 示 编 译 时 刻 和 运行 时 刻 。 如 果 编 译 器 只 需要 通过 观 
察 程序 文本 即 可 做 出 某 个 存储 分 配 决定 ， 而 不 需要 观察 该 程序 在 运行 时 
做 了 什么 ， 我 们 就 认为 这 个 存储 分 配 决 定 是 静态 的 。 反 过 来 ， 如 果 只 有 
在 程序 运行 时 才能 做 出 决定 ， 那 么 这 个 决定 束 是 动态 的 。 很 多 编译 器 使 
用 下 列 两 种 策略 的 某 种 组 合 进行 动态 存储 分 配 : 


1) 栈 式 存储 。 一 个 过 程 的 局 部 名 字 在 栈 中 分 配 空间 。 我 们 将 从 7.2 
节 开 始 讨论 “运行 时 刻 栈 "。 这 种 栈 文 持 通 冲 的 过 程 调用 /返回 策略 。 


2) 堆 存储 。 有 些 数据 的 生命 周期 要 比 创 造 它 的 某 次 过 程 调用 更 
长 ， 这 些 数据 通常 被 分 配 在 一 个 可 复 用 存储 的 “ 堆 * 中 。 我 们 将 从 7.4 市 开 
始 讨 论 堆 管 理 。 堆 是 虚拟 内 存 的 一 个 区 域 ， 它 允许 对 象 或 其 他 数据 元 系 
在 被 创建 时 获得 存储 空间 ， 并 在 数据 变 得 无 效 时 释放 该 存储 空间 。 


为 了 文 持 堆 区 管理 ， 通 过 “垃圾 回收 ?使 得 运行 时 刻 系 统 能 够 检 训 出 
无 用 的 数据 元 素 ， 即 使 程序 员 没 有 显 式 地 释放 它们 的 空间 ， 运 行 时 刻 系 
统 也 能 够 复 用 这 些 存 储 。 尽 管 目 动 让 圾 回收 机 制 是 一 个 难以 高 效 元 成 的 
操作 ， 但 它 仍 是 很 多 现代 程序 设计 语言 的 一 个 重要 特征 。 对 于 某 些 语 
来 说 ， 垃 圾 回收 甚至 是 不 可 能 完成 的 。 























7.2 ”空间 的 栈 式 分 配 


有 些 语言 使 用 过 程 、 函 数 或 方法 作为 用 户 目 定义 动作 的 单元 ， 几 乎 
所 有 针对 这 些 语言 的 编译 器 都 把 它们 的 〈 人 至少 一 部 分 的 ) 运行 时 刻 存储 
按照 一 个 栈 进行 管理 。 每 当 一 个 过 程 出 被 调用 时 ， 用 于 存放 该 过 程 的 局 
部 变量 的 空间 被 压 入 栈 ， 当 这 个 过 程 结束 时 ， 该 空间 被 弹出 这 个 栈 。 我 
们 将 看 到 ， 这 种 安排 不 仅 允 许 活 跃 时 段 不 交 环 的 多 个 过 程 调 用 之 间 共 享 
空间 ， 而 且 允 许 我 们 以 如 下 方式 为 一 个 过 程 编译 代码 : 它 的 非 局 部 变量 
的 相对 地 址 总 是 固定 的 ， 和 过 程 调 用 的 序列 无 关 。 





7.2.1 活动 树 
假如 过 程 调用 (或 者 说 过 程 的 活动 ) 在 时 间 上 不 是 嵌 套 的 ， 那 么 栈 
式 分 配 就 不 可 行 了 。 下 面 的 例子 说 明了 过 程 调 用 的 嵌 套 情形 。 


图 7-2 给 出 了 一 个 程序 的 概要 。 该 程序 将 9 个 整数 读 入 到 一 个 数 
组 a， 并 使 用 递归 的 快速 排序 算法 对 这 些 整 数 排序 。 





int al[i1l]; 
void readArray() { /* 将 9 个 整数 读 入 到 al[1l],.…,al9] 中 。*/ 


in 13 


} 
int partition(int m, int n) { 
/* 选择 一 个 分 割 值 w， 划 分 a[m..n]， 
使 得 lm .PP 一 下 小 于 ww alp| =v， 
并 且 alp 十 1..n| 大 于 等 于 v。 返 回 p. */ 


} 
void quicksort(int m, int n) { 
功 0 中 
i Cn SO) 
i = partition(m, n); 
quicksort (m, i-1); 
quicksort(i+1, n); 


} 


main() { 
readArray (); 
a[0] = -9999; 
a[10] = 9999 ; 
quicksort (1,9); 





图 7-2 一 个 快速 排序 程序 的 概要 


程序 的 主 函 数 有 三 个 任务 。 它 调用 readArray， 设 定 上 下 限 值 ， 然 后 
在 整个 数组 之 上 调用 quicksort。 图 7-3 给 出 了 可 能 在 程序 的 某 次 执行 中 得 
到 的 调用 序列 。 在 这 次 执行 中 ， 对 partition (1，9) 的 调用 返回 4， 因 此 
a [1] 到 a[L3] 存放 了 小 于 被 选 定 的 分 割 值 v 的 元 素 ， 而 较 大 的 元 素 被 
存放 在 a [5] 到 a[L9] 。 


在 这 个 例子 中 ， 过 程 活动 在 时 间 上 是 髋 套 的 ， 在 一 般 情况 下 也 是 这 
样 。 如 果 过 程 p 的 一 个 活动 调用 了 过 程 d， 那 么 q 的 该 次 活动 必定 在 p 的 活 
动 结束 之 前 结束 。 有 三 种 常见 的 情况 : 


1) q 的 该 次 活动 正常 结束 ， 那 么 基本 上 在 任何 语言 中 ， 控 制 流 从 p 








中 调用 gq 的 反之 后 继续 。 


2) d 的 该 次 活动 《或 q 调 用 的 茶 个 过 程 ) 直接 或 间接 地 中 止 了 ， 也 
就 是 说 不 能 再 继续 执行 了。 在 这 种 情况 下 ，q 和 和 p 同 时 结 


3) q 的 该 次 活动 因为 q 不 能 处 理 的 某 个 异常 而 结束 。 过 程 p 可 能 会 处 
理 这 个 异 第 。 此 时 gq 的 活动 已 经 结束 而 p 的 活动 继续 执行 ， 尺 管 p 的 活动 
不 一 定 从 调用 gq 的 点 开始 。 如 果 p 不 能 处 理 这 个 异常 ， 那 么 p 的 活动 和 gq 的 
活动 一 起 结束 。 一 般 来 说 某 个 过 程 的 尚未 结束 的 活动 将 处 理 这 个 异常 。 


因此 ， 我 们 可 以 用 一 棵 树 来 表示 在 整个 程序 运行 期 间 的 所 有 过 程 的 
活动 ， 这 棵 树 称 为 活动 树 (activation tree) 。 树 中 的 每 个 结 点 对 应 于 一 
个 活动 ， 根 结 点 是 启动 程序 执行 的 main 过 程 的 活动 。 在 表示 过 程 p 的 某 
个 活动 的 结 点 上 ， 其 子 结 点 对 应 于 被 p 的 这 次 活动 调用 的 各 个 过 程 的 活 
动 。 我 们 按照 这 些 活动 被 调用 的 顺序 ， 自 左 同 右 地 显示 它们 。 值 得 注意 
的 是 ， 一 个 子 结 点 必须 在 其 右 兄 第 结 点 的 活动 开始 之 前 结束 。 


























一 种 快速 排序 


图 7-2 中 的 快速 排序 程序 概要 使 用 了 两 个 辅助 函数 readArray 利 
partition。 岗 数 readArray 仪 用 于 将 数据 加 载 到 数组 a 中 。 数 组 a 的 第 一 
个 和 最 后 一 个 元 素 没有 用 于 存放 输入 数据 ， 而 是 用 于 存放 主 函数 中 设 
定 的 “ 限 值 ”。 我 们 假定 a [0] 被 设 为 小 于 所 有 可 能 输入 数据 值 的 值 ， 
而 a [10] 被 设 为 大 于 所 有 数据 值 的 值 。 


函数 partition 对 数组 中 第 m 个 元 素 到 第 n 个 元 素 的 部 分 进行 分 割 ， 
使 得 a [mj 到 a [nj 之 间 的 小 元 系 存 放 在 前 面 ， 而 大 的 元 系 存 放 在 
尾部 ， 但 是 这 两 组 内 部 不 一 定 是 排 好 序 的 。 我 们 将 不 会 探究 partition 
的 工作 方式 ， 只 需要 知道 这 个 过 程 要 求 前 面 提 到 的 上 下 限 值 必须 存 
1 。 图 9-1 中 的 更 加 详细 的 代码 给 出 了 实现 partition 的 一 种 可 能 的 算 
人 


递归 过 程 quicksort 首 先 确定 它 是 否 需要 对 多 个 数组 元 素 进行 排 
序 。 请 注意 ， 单 个 元 素 总 是 “有 序 的 "， 因 此 在 这 种 情况 下 quicksort 不 
需要 做 任何 事 。 如 果 有 多 个 元 素 需 要 排序 ，quicksort 首 先 调用 
partition。 这 次 调用 会 返回 一 个 数组 下 标 i， 它 是 小 元 素 和 大 元 素 之 间 
































的 分 界线 。 然 后 通过 递归 调用 quicksort 对 这 两 组 元 素 排序 。 








图 7-3 给 出 了 一 个 调用 和 返回 序列 ， 而 图 7-4 中 显示 了 一 柠 完 成 
这 个 黄 用 /返回 序列 的 可 能 的 活动 树 。 各 个 函数 用 它 的 函数 名 的 第 一 个 
字母 表示 。 请 记 住 ， 这 个 树 只 代表 了 一 种 可 能 性 ， 因 为 后 续 调 用 的 参数 
会 有 人 不同， 并且 各 个 分 文 上 的 调用 次 数 会 受到 partition 的 返回 值 的 影 
啊 。 





enter main() 
enter readArray() 
leave readArray() 
enter quicksort(1,9) 
enter partition(1,9) 
leave partition(1,9) 
enter quicksort(1,3) 


leave quicksort(1,3) 
enter quicksort(5,9) 


leave quicksort(5,9) 
leave quicksort(1,9) 
leave main() 





图 7-3 ”图 7-2 中 程序 的 可 能 的 活动 序列 


在 活动 树 和 程序 行为 之 间 存 在 下 列 多 种 有 用 的 对 应 关系 ， 正 是 因为 
这 些 关 系 使 我 们 可 以 使 用 运行 时 刻 栈 : 


1) 过 程 调用 的 序列 和 活动 树 的 前 序 过 历 相 对 应 。 
2) 过 程 返回 的 序列 和 活动 树 的 后 序 通 有 历 相 对 应 。 
3) 假定 控制 流 位 于 东 个 过 程 的 特定 活动 中 ， 且 该 过 程 活动 对 应 于 








活动 树 上 的 茶 个 结 点 N。 那 么 当前 尚未 结束 的 〈 即 活跃 的 ) 活动 就 是 结 
点 N 及 其 祖先 结 点 对 应 的 活动 。 这 些 活动 被 调用 的 顺序 就 是 它们 在 从 根 
结 点 到 N 的 路 径 上 的 出 现 顺 序 。 这 些 活动 将 按照 这 个 顺序 的 反 序 返 回 。 
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图 7-4 表示 quicksort 的 某 次 运行 中 的 调用 的 活动 树 
7.2.2 ”活动 记录 


过 程 调 用 和 返回 通常 由 一 个 称 为 控制 栈 〈(control stack) 的 运行 时 刻 
栈 进行 管理 。 每 个 活跃 的 活动 都 有 一 个 位 于 这 个 控制 栈 中 的 活动 记录 
(activation record， 有 时 也 称 为 帧 〈frame) ) 。 活 动 树 的 根 位 于 栈 底 ， 
栈 中 全 部 活动 记录 的 序列 对 应 于 在 活动 树 中 到 达 当 前 控制 所 在 的 活动 结 
点 的 路 径 。 程 序 控 制 所 在 的 活动 的 记录 位 于 栈 顶 。 


如 果 当 前 的 控制 位 于 图 7-4 的 树 中 的 活动 d 〈2，3) 上 ， 那 么 
q (2，3) 对 应 的 活动 记录 在 控制 栈 的 顶端 。 紧 跟 在 下 面 的 是 q (1，3) 
的 活动 记录 ， 即 树 中 q (2，3) 的 父 结 点 。 再 下 面 是 gd (1，9) 的 活动 记 
录 。 栈 的 底 端 是 主 冰 数 m 的 活动 记录 ， 也 就 是 活动 树 的 根 。 


按照 惯例 ， 我 们 在 画 控 制 栈 的 时 候 将 把 栈 拘 画 在 栈 项 之 上 。 因 此 在 
一 个 活动 记录 中 出 现在 页 面 最 下 方 的 元 素 实 际 上 最 徘 近 栈 项 。 


根据 所 实现 语言 的 不 同 ， 其 活动 记录 的 内 容 也 有 所 不 同 。 这 里 列举 
出 可 能 出 现在 一 个 活动 记录 中 的 各 种 类 型 的 数据 (图 7-5 列 出 了 这 些 元 
素 以 及 它们 之 间 的 可 能 顺序 》: 











临时 变量 


图 7-5 一 个 概括 性 的 活动 记录 








1) 临时 值 。 比 如 当 表 达 式 求 值 过 程 中 产生 的 中 间 结 末 无 法 存放 在 
寄存 器 中 时 ， 就 会 生成 这 些 临时 值 。 


2) 对 应 于 这 个 活动 记录 的 过 程 的 局 部 数据 。 


3) 保存 的 机 器 状态 ， 其 中 包括 对 此 过 程 的 此 次 调用 之 前 的 机 器 状 
态 信息 。 这 些 信息 通常 包括 返回 地 址 〈 程 序 计数 器 的 值 ， 被 调用 过 程 必 
须 返 回 到 该 值 所 指 位 置 ) 和 一 些 寄存 右 中 的 内 容 (调用 过 程 会 使 用 这 些 
内 容 ， 被 调用 过 程 必须 在 返回 时 恢复 这 些 内 容 〉。 


4) 一 个 “访问 链 ”。 当 被 调用 过 程 需要 其 他 地 方 《 比 如 另 一 个 活动 
记录 ) 的 共 个 数据 时 需要 使 用 访问 链 进行 定位 。 访 问 链 将 在 7.3.5 节 中 讨 


论 。 





5) 一 个 控制 链 (control lnk) ， 指 向 调用 者 的 活动 记录 。 

6) 当 被 调用 函数 有 返回 值 时 ， 要 有 一 个 用 于 存放 这 个 返回 值 的 空 
间 。 不 是 所 有 的 被 调用 过 程 都 有 返回 值 ， 即 使 有 ， 我 们 也 可 能 倾 癌 于 将 
该 值 放 到 一 个 寄存 器 中 以 提高 效率 。 


7) 调用 过 程 使 用 的 实在 参数 (actual parameter) 。 这 些 值 通常 将 尽 





可 能 地 放 在 寄存 器 中 ， 而 不 是 放 在 活动 记录 中 ， 因 为 放 在 寄存 器 中 会 得 
到 更 好 的 效率 。 然 而 ， 我 们 仍然 为 它们 预 留 了 相应 的 空间 ， 使 得 我 们 的 
活动 记录 共有 完全 的 通用 性 。 


图 7-6 给 出 了 当 控制 流 在 图 7-4 所 示 的 活动 树 中 运行 时 运行 时 刻 

多 个 快照 。 这 些 不 完整 的 树 中 的 虚线 指向 已 经 结束 的 活动 。 程 序 的 
执行 随 着 过 程 main 的 一 次 活动 而 开始 。 因 为 数组 a 是 全 局 的 ， 在 此 之 前 
已 经 为 a 分 配 了 存储 空间 ， 如 图 7-6a 所 示 。 
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main main main 







integer 1 
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integer al11 







main main main 
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cn th / 


integer 7 
a p(1,9) q(1,3) 


integer m, n 


1 
p(1,3) q(1,0) 1 - _ __. 
integer % 


c) 7 被 弹出 栈 ,q(1, 9) 被 压 栈 d) 控制 返回 到 q(1, 3) 
图 7-6 向 下 增长 的 活动 记录 栈 


当 控制 到 达 main 的 函数 体 中 的 第 一 个 函数 调用 时 ， 过 程 r 被 激活 ， 
它 的 活动 记录 被 压 入 栈 中 《参见 图 7-6b) 。fr 的 活动 记录 包含 了 局 部 变量 
i 的 空间 。 请 记 住 栈 顶 是 在 图 的 下 方 。 当 控制 从 这 次 活动 中 返回 时 ， 写 
的 记录 被 弹出 栈 ， 栈 中 只 留 下 main 的 记录 。 


然后 控制 到 达 实 在 参数 为 1 和 9 的 对 q《〈 即 快速 排序 ) 的 调用 ， 这 次 
调用 的 活动 记录 被 放置 在 栈 项 ， 如 图 7-6c 所 示 。gq 的 活动 记录 中 包括 了 
参数 m 和 n 以 及 局 部 变量 i 的 空间 。 它 们 按照 图 7-5 所 示 的 通用 布局 放置 。 

















请 注意 ， 兽 经 被 r 的 调用 使 用 的 空间 被 复 用 了 。 函 数 调用 g (1，9) 没有 
任何 方法 找到 r 的 局 部 数据 。 当 q (1，9) 返回 时 ， 栈 中 再 次 只 剩 下 了 
main 的 活动 记录 。 


在 图 7-6 的 最 后 两 个 快照 之 间 发 生 了 多 个 活动 。q (1，9) 递归 地 调 
用 了 q (1，3) 。 在 q (1，3) 的 生命 期 内 ， 活 动 p (1，3) 和 gq (1，0) 
开始 执行 并 结束 ， 栈 顶 只 留 下 了 活动 记录 gq (1，3) ( 见 图 7-6d)〉 。 注 
Re 的 时 ， 常 常会 有 该 过 程 的 多 个 活动 记录 同时 出 现 
个 必 o 








7.2.3 ”调用 代码 序列 


实现 过 程 调用 的 代码 段 称 为 调用 代码 序列 (calling sequence) 。 这 
个 代码 序列 为 一 个 活动 记录 在 栈 中 分 配 空间 ， 并 在 此 记录 的 字段 中 填写 
信息 。 返 回 代 码 序 列 〈return sequence) 是 一 段 类 似 的 代码 ， 它 恢复 机 
髓 状态 ， 使 得 调用 过 程 能 够 在 调用 结束 之 后 继续 执行 。 


即使 对 于 同一 种 语言 ， 不 同 实现 中 的 调用 代码 序列 和 活动 记录 的 布 
局 也 可 能 干 差 万 别 。 一 个 调用 代码 序列 中 的 代码 通常 被 分 割 到 调用 过 程 
(调用 者 〉 和 被 调用 过 程 ( 被 调用 者 〉 中 。 在 分 割 运行 时 刻 任务 时 ， 调 
用 者 和 被 调用 者 之 间 不 存在 明确 界限 。 源 语言 、 目 标 机 器 、 操 作 系 统 会 
提出 东 些 有 要求， 使 得 能 够 选择 出 一 种 较 好 的 分 割 方案 。 总 的 来 说 ， 如 宁 
一 个 过 程 在 n 个 不 同 点 上 被 调用 ， 分 配给 调用 者 的 那 部 分 调用 代码 序列 
会 被 生成 n 次 。 然 而 ， 分 配给 被 调用 者 的 部 分 只 被 生成 一 次 。 因 此 ， 我 
们 期 望 把 调用 代码 序列 中 尽 可 能 多 的 部 分 放 在 被 调用 者 中 一 一 能 够 根据 
被 调用 者 的 信息 确定 的 部 分 都 应 该 放 到 被 调用 者 中 。 不 过 ， 我 们 将 看 
到 ， 被 调用 者 不 可 能 知道 所 有 的 事情 。 


i 在 设计 调用 代码 序列 和 活动 记录 的 布局 时 ， 可 以 使 用 下 列 的 设计 原 
则 ; 


1) 在 调用 者 和 被 调用 者 之 间 传 递 的 值 一 般 被 放 在 被 调用 者 的 活动 
记录 的 开始 位 置 ， 因 此 它们 尽 可 能 地 靠近 调用 者 的 活动 记录 。 这 样 做 的 
动机 是 ， 调 用 者 能 够 计算 该 次 调用 的 实在 参数 的 值 并 将 它 放 在 上 自身 活动 
记录 的 项 部 ， 而 不 用 创建 整个 补 调 用 者 的 活动 记录 ， 甚 至 不 用 知道 该 记 
录 的 布局 。 不 仅 如 此 ， 它 还 使 得 语言 可 以 使 用 参数 个 数 或 类 型 可 变 的 过 














程 ， 比 如 C 语 言 中 的 printf 函 数 。 被 调用 者 知道 应 该 把 返回 值 放 置 在 相 
对 于 它 自己 的 活动 记录 的 哪个 位 置 。 同 时 ， 不 管 有 多 少 个 参数 ， 它 们 都 
将 在 栈 中 顺序 地 出 现在 该 位 置 之 下 。 


2) 固定 长 度 的 项 被 放置 在 中 间 位 置 。 根 据 图 7-5， 这 样 的 项 通常 包 
括 控制 链 、 访 问 链 和 机 器 状态 字段 。 如 果 每 次 调用 中 保存 的 机 器 状态 的 
成 分 相同 ， 那 么 可 以 使 用 同一 段 代 码 来 保存 和 恢复 每 次 调用 的 数据 。 不 
仅 如 此 ， 如 采 我 们 将 机 器 状态 信息 标准 化 ， 那 么 当 错误 发 生 时 ， 诸 如 调 
试 右 这 样 的 程序 将 可 以 更 容易 地 将 栈 中 的 内 容 解码 。 


3) 那些 在 早期 不 知道 大 小 的 项 将 修 放 置 在 活动 记录 的 尾部 。 大 部 
分 局 部 变量 具有 固定 的 长 度 ， 编 译 喜 通 过 检查 该 变量 的 类 型 就 可 以 确定 
其 长 度 。 然 而 ， 有 些 局 部 变量 的 大 小 只 有 在 程序 运行 时 才能 确定 。 最 向 
见 的 例子 是 动态 数组 ， 数 组 大 小 根据 被 调 用 者 的 茶 个 参数 决定 。 忆 外 ， 
临时 量 所 需 空间 的 大 小 通 第 依赖 于 代码 生成 阶段 能 够 将 多 少 临 时 变量 放 
在 寄存 器 中 。 因 此 ， 虽 然 编译 器 最 终 可 以 知道 临时 变量 所 需要 的 空间 ， 
但 在 刚 开 始 生 成 中 间 代 码 时 可 能 并 不 知道 该 空间 的 大 小 。 


4) 我 们 必须 小 心地 确定 栈 顶 指针 所 指 的 位 置 。 一 个 常用 的 方法 是 
让 这 个 指针 指 同 活动 记录 中 国定 长 度 字 段 的 末端 。 这 样 ， 固 定 长 度 的 数 
所 就 可 以 通过 固定 的 相对 于 栈 顶 指针 的 侦 移 量 来 访问 ， 而 中 间 代 码 生成 
器 知道 这 些 偶 移 量 。 使 用 这 种 方法 的 后 果 是 活动 记录 中 的 变 长 域 实际 上 
位 于 栈 项 < 之 上 ”。 它 们 的 偏 移 量 需 要 在 运行 时 刻 进 行 计算 ,但 是 它们 仍 
然 可 以 基于 栈 顶 指针 进行 访问 ， 但 是 偏 移 量 为 下 。 


图 7-7 给 出 了 调用 者 和 被 调用 者 如 何 合作 管理 调用 栈 的 一 个 例子 。 
寄存 器 top_sp 指 向 当前 的 顶层 活动 记录 中 机 器 状态 字段 的 末端 。 调 用 者 
知道 这 个 位 于 被 调用 者 的 活动 记录 中 的 位 置 。 因 此 ， 调 用 者 可 以 负责 在 
控制 转向 被 调用 者 之 前 设 定 top_sp 的 值 。 这 个 调用 代码 序列 以 及 它 在 调 
用 者 和 被 调用 者 之 间 的 划分 描述 如 下 
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图 7-7 调用 者 和 被 调用 者 之 间 的 任务 划分 

1) 调用 者 计算 实在 参数 的 值 。 

2) 调用 者 将 返回 地 址 和 原来 的 top_sp 值 存放 到 被 调用 者 的 活动 记录 
中 。 然 后 ， 调 用 者 增加 top_sp 的 值 ， 使 之 指 癌 图 7-7 所 示 的 位 置 。 也 就 是 
说 ，top_sp 越 过 了 调用 者 的 局 部 数据 和 临时 变量 以 及 被 调用 者 的 参数 和 
机 器 状态 字段 。 

3) 被 调用 者 保存 寄存 器 值 和 其 他 状态 信息 。 

4) 被 调用 者 初始 化 其 局 部 数据 并 开始 执行 。 

一 个 与 此 匹配 的 返回 代码 序列 如 下 : 

1) 如 图 7-5 所 示 ， 被 调用 者 将 返回 值 放 到 与 参数 相 邻 的 位 置 。 


2) 使 用 机 器 状态 字段 中 的 信息 ， 被 调用 者 恢复 top_sp 和 其 他 寄存 
侣 ， 然 后 跳 转 到 由 调用 者 放 在 机 器 状态 字段 中 的 返回 地 址 。 


3) 尽管 top_sp 已 经 被 减 小 ， 但 调用 者 仍然 知道 返回 值 相对 于 当前 
top_sp 值 的 位 置 。 因 此 ， 调 用 者 可 以 使 用 那个 返回 值 。 


上 面 的 调用 和 返回 代码 序列 支持 使 用 不 同 数量 的 参数 来 调用 同一 个 








被 调用 程序 〈 就 像 C 语 言 中 的 printf 函 数 那样 ) 。 请 注意 ， 在 编译 时 
刻 ， 调 用 者 的 目标 代码 知道 它 同 被 调用 者 提供 的 参数 的 数量 和 类 型 。 因 
此 ， 调 用 者 知道 参数 区 域 的 大 小 。 然 而 ， 被 调用 者 的 目标 代码 必须 还 能 
处 理 其 他 调用 ， 因 此 ， 它 要 等 到 被 调用 时 再 检查 相应 的 参数 字段 。 使 用 
图 7-7 中 的 组 织 方法 ， 描 述 参数 的 信息 必定 放置 在 状态 字段 的 相 邻 位 
置 ， 因 此 被 调用 者 可 以 找到 这 个 信息 。 例 如 ， 在 C 语 言 的 printf 函 数 
中 ， 第 一 个 参数 撒 述 了 其 余 的 参数 ， 因 此 一 旦 找到 了 第 一 个 参数 ， 调 用 
者 就 可 以 找到 所 有 的 其 他 参数 。 





7.2.4 ” 栈 中 的 变 长 数据 


运行 时 刻 存 储 管理 系统 必须 频 或 地 处 理 某 些 数据 对 象 的 空间 分 配 。 
这 些 数据 对 象 的 大 小 在 编译 时 刻 未 知 ， 但 是 它们 是 这 个 过 程 的 局 部 对 
象 ， 因 而 可 以 被 分 配 在 运行 时 刻 栈 中 。 在 现代 程序 设计 语言 中 ， 在 编译 
时 刻 不 能 决定 大 小 的 对 象 将 被 分 配 在 堆 区 。 堆 区 的 存储 结构 将 在 7.4 市 
中 讨论 。 不 过 ， 也 可 以 将 未 知 大 小 的 对 象 、 数 组 以 及 其 他 结构 分 配 在 栈 
中 。 我 们 在 这 里 将 讨论 如 何 进 行 这 种 分 配 。 尽 可 能 将 对 象 放置 在 栈 区 的 
原因 是 我 们 可 以 避免 对 它们 的 空间 进行 垃圾 回收 ， 也 就 减少 了 相应 的 开 
销 。 注 意 ， 只 有 一 个 数据 对 象 局 限于 茶 个 过 程 ， 且 当 此 过 程 结 束 时 它 变 
得 不 可 访问 ， 才 可 以 使 用 栈 为 这 个 对 象 分 配 空间 。 


为 变 长 数组 〈 即 其 大 小 依赖 于 被 调用 过 程 的 一 个 或 多 个 参数 值 的 数 
组 ) 分 配 空间 的 一 个 常用 策略 如 图 7-8 所 示 。 同 样 的 方案 可 以 用 于 任何 
类 型 的 对 象 的 分 配 ， 只 要 它们 对 被 调用 的 过 程 而 言 是 局 部 的 ， 并 且 其 大 
小 依赖 于 该 次 调用 的 参数 即 可 。 


在 图 7-8 中 ， 过 程 p 有 三 个 局 部 数组 ， 我 们 假设 它们 的 大 小 无 法 在 编 
译 时 刻 确 定 。 尺 管 这 些 数 组 的 存储 出 现在 栈 中 ， 它 们 并 不 是 p 的 活动 记 
录 的 一 部 分 。 只 有 指 同 各 个 数组 的 开始 位 置 的 指针 存放 在 活动 记录 中 。 
因此 当 p 执 行 时 ， 这 些 指针 的 位 置 相 对 于 栈 项 指针 的 偏 移 量 是 已 知 的 ， 
因而 目标 代码 可 以 通过 这 些 指针 访问 数组 元 素 。 
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P 的 活动 记录 


P 的 数组 
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被 p 调用 的 过 程 


top_sp 4 的 活动 记录 





4 的 数组 
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图 7-8 访问 动态 分 配 的 数组 


图 7-8 中 还 给 出 了 一 个 被 p 调 用 的 过 程 q 的 活动 记录 。q 的 这 个 活动 记 
录 从 p 的 数组 之 后 开始 ，dq 的 所 有 变 长 数组 被 分 配 在 q 的 活动 记录 之 外 。 


对 栈 中 数据 的 访问 通过 指针 top 和 top_sp 完 成 。 这 里 ，top 标 记 了 实 
际 的 栈 顶 位 置 ， 它 指向 下 一 个 活动 记录 将 开始 的 位 置 ， 第 二 个 指针 
top_sp 用 来 找到 顶层 活动 记录 的 局 部 的 定 长 字段 。 为 了 和 图 7-7 保 持 一 
人 致 ， 我 们 将 假定 top_sp 指 加 机 器 状态 字段 的 末端 。 在 图 7-8 中 ，top_sp 指 
癌 q 的 活动 记录 的 机 器 状态 字段 的 末端 。 从 那里 ， 我 们 可 以 找到 q 的 控制 
链 字 段 ， 根 据 这 个 字段 我 们 可 以 知道 当 p 位 于 栈 顶 时 ，top_sp 所 指 的 p 的 
活动 记录 中 的 位 置 。 


重新 设置 top 和 top_sp 所 指 位 置 的 代码 可 以 在 编译 时 刻 生成 。 这 些 代 
码 根据 将 根据 在 运行 时 刻 获 知 的 记录 大 小 来 计算 top 和 top_sp 的 新 值 。 当 
qd 返回 时 ， 可 以 根据 q 的 活动 记录 中 的 被 保存 的 控制 链 来 恢复 top_sp 的 
值 。top 的 新 值 等 于 (未 经 恢复 的 原来 的 ) top_sp 值 减 去 q 的 活动 记录 中 
机 器 状态 、 控 制 链 、 访 问 链 、 返 回 值 、 参 数字 段 〈 如 图 7-5 所 示 ) 的 总 

















长 度 。 调 用 者 可 以 在 编译 时 刻 知 道 这 个 长 度 ， 尽 管 当 调用 参数 的 个 数 可 
变 时 ， 它 仍 取决 于 调用 者 如果 调用 q 的 参数 个 数 可 变 ) 。 


7.2.5 7.2 节 的 练习 


练习 7.2.1: 假设 图 7-2 中 的 程序 使 用 如 下 的 partition 函 数 : 该 函数 总 
是 将 a [mj 作为 分 割 值 v。 同 时 假设 在 对 数组 a [Lm] ，.…，a Lnj」 重新 
排序 时 总 是 尽量 保存 原来 的 顺序 。 也 就 是 说 ， 首 先是 以 原 顺 序 保 持 所 有 
ee 0 0 

VHj 元 系 。 


1) 画 出 对 数字 9、8、7、6、5、4、3、2、1 进 行 排序 时 的 活动 树 。 
2) 同时 在 栈 中 出 现 的 活动 记录 最 多 有 多 少 个 ? 


练习 7.2.2: 当初 始 顺序 为 1、3、5、7、9、2、4、6、8 时 ， 重 复 练 
习 7.2.1。 





























练习 7.2.3: 图 7-9 中 是 递归 计算 Fiabonacci 数 列 的 C 语 言 代 码 。 假 设 {f 
的 活动 记录 按 顺 序 包 含 下 列 元 素 : (返回 值 ， 参 数 n"， 局 部 变量 s， 局 部 
变量 t) 。 通 常 在 活动 记录 中 还 会 有 其 他 元 素 。 下 面 的 问题 假设 初始 调 
用 是 f (5) 。 








int f(int n) { 
1nt ts BS 
if (n < 2) return 1; 
s = f(n-1); 


t = f(n-2); 
return s+t; 





图 7-9 ”练习 7. 2. 3 的 Fibonacci 程 序 


1) 给 出 完整 的 活动 树 。 


2) 当 第 1 个 f(1) 调用 即将 返回 时 ， 和 运行 时 刻 栈 和 其 中 的 活动 记录 
是 什么 样子 的 ? 


! 3) 当 第 5 个 f (1) 调用 即将 返回 时 ， 运 行 时 刻 栈 和 其 中 的 活动 记 
录 是 什么 样子 的 ? 


练习 7.2.4: 下 面 是 两 个 C 语 言 函 数 f 和 g 的 概述 : 


int f(int x) { int 1; .return i+1; ... } 
int gl(int y) { int j;::: f(j+1)... } 


也 就 是 说 ， 函 数 g 调 用 f。 加 出征 g 调 用 f 而 {将 返 回 时 ， 运 行 时 刻 栈 中 从 
g 的 活动 记录 开始 的 顶 病 部 分 。 你 可 以 只 考虑 返回 值 、 参 数 、 控 制 链 以 
及 存放 局 部 数据 的 空间 。 你 不 用 考虑 存放 的 机 器 状态 ， 也 不 用 考虑 没有 
在 代码 中 显示 的 局 部 值 和 临时 值 。 但 是 你 应 该 指出 : 

1) 哪个 函数 在 栈 中 为 各 个 元 素 创 建 了 所 使 用 的 空间 ? 

2) 哪个 函数 写 入 了 各 个 元 系 的 值 ? 

3) 这 些 元 系 属 于 哪个 活动 记录 ? 


练习 7.2.5: 在 一 个 通过 引用 传递 参数 的 语言 中 ， 有 一 个 函数 f 〈xX， 
y) 完成 下 面 的 计算 : 


X=X+1iy=y+2; return X+y; 











如 果 将 a 赋值 为 3， 然 后 调用 f(a，a) ， 那 么 返回 值 是 什么 ? 
练习 7.2.6: Ci 语言 函数 f 的 定义 如 下 : 


int f(int x, *py, **ppz) { 
**ppzZ += 1; *py += 2; X += 3; return x+*py+**pPpZ; 


变量 a 是 一 个 指向 b 的 指针 ;变量 b 是 一 个 指向 c 的 指针 ， 而 c 是 一 个 当前 
值 为 4 的 整数 变量 。 如 果 我 们 调用 f (c，b，a) ， 返 回 值 是 什么 ? 


7.3” 栈 中 非 局 部 数据 的 访问 


在 本 节 中 ， 我 们 将 探讨 过 程 如 何 访问 它们 的 数据 。 尤 其 重要 的 是 找 
到 在 过 程 p 中 被 使 用 但 又 不 属于 p 的 数据 的 机 制 。 对 于 那些 可 以 在 过 程 中 
声明 其 他 过 程 的 语言 ， 这 种 访问 将 变 得 更 加 复杂 。 因 此 ， 我 们 首先 从 C 
函数 这 种 简单 情况 开始 ， 然 后 介绍 另 一 种 语言 ML， 该 语言 文 持 仍 套 的 
图 数 声 明 ， 并 文 持 将 函数 看 成 是 “一 阶 对 象 "。 也 就 是 说 ， 函 数 可 以 将 函 
数 作 为 参数 ， 并 把 函数 当做 值 返回 。 通 过 修改 运行 时 刻 栈 的 实现 方法 就 
了 
方法。 


7.3.1 没有 般 套 过 程 时 的 数据 访问 


在 C 系 列 语 言 中 ， 各 个 变量 要 么 在 某 个 函数 内 定义 ， 要 么 在 所 有 函 
数 之 外 《全 局 地 ) 定义 。 最 重要 的 是 ， 不 可 能 声明 一 个 过 程 使 其 作用 域 
完全 位 于 另 一 个 过 程 之 内 。 反 过 来 ， 一 个 全 局 变量 v 的 作用 域 包 含 了 在 
该 变量 声明 之 后 出 现 的 所 有 函数 ， 但 那些 存在 标识 符 v 的 局 部 定义 的 地 
方 除 外 。 在 一 个 函数 内 部 声明 的 变量 的 作用 域 就 是 这 个 函数 ， 或 者 像 在 
1.6.3 节 中 讨论 过 的 那样 ， 如 果 该 函数 具有 骨 套 的 语句 块 ， 这 个 变量 的 作 
用 域 可 能 是 该 函数 的 部 分 区 域 。 

对 于 不 允许 声明 骸 套 过 程 的 语言 而 言 ， 变 量 的 存储 分 配 和 访问 这 些 
变量 是 比较 简单 的 : 

1) 全 局 变量 被 分 配 在 静态 区 。 这 些 变量 的 位 置 保持 不 变 ， 并 且 在 
编译 时 刻 可 知 。 因 此 要 访问 当前 正在 运行 的 过 程 的 非 局 部 变量 时 ， 我 们 
可 以 直接 使 用 这 些 静 态 确 定 的 地 址 。 

2) 其 他 变量 一 定 是 栈 顶 活动 的 局 部 变量 。 我 们 可 以 通过 运行 时 刻 
栈 的 top_sp 指 针 来 访问 这 些 变 量 。 

对 于 全 局 变量 进行 静态 分 配 的 一 个 好 处 是 ， 被 声明 的 过 程 可 以 作为 
参数 传递 ， 也 可 以 作为 结果 返回 (在 C 语 言 中 可 以 传递 指 癌 该 函数 的 指 























针 ) ， 实 现 这 样 的 传递 不 需要 对 数据 访问 策略 做 出 本 质 的 改变 。 使 用 C 
语言 的 静态 作用 域 规则 且 不 多 许 使 用 暴 套 过 程 声 明 时 ， 一 个 过 程 的 任何 
非 局 部 变量 也 是 所 有 过 程 的 非 局 部 变量 ， 不 管 这 些 过 程 是 如 何 被 激活 

的 。 类 似 地 ， 如 果 一 个 过 程 作为 结果 人 返回， 那么 任何 非 局 部 的 变量 都 指 
回 为 该 变量 静态 分 配 的 存储 位 置 。 




















7.3.2 ”和 髋 套 过 程 相 关 的 问题 


当 一 种 语言 允许 藤 套 地 声明 过 程 并 且 仍 然 章 循 通 音 的 静态 作用 域 规 
则 时 ， 数 据 访 问 变 得 比较 复 人 本。 也 惑 是 说 ， 根 据 1.6.3 节 中 描述 的 针对 语 
句 块 的 租 套 作用 域 规划 ， 一 个 过 程 能 够 访问 男 一 个 过 程 的 变量 ， 只 要 后 
一 个 过 程 的 声明 包含 了 前 一 过 程 的 声明 即 可 。 其 原因 在 于 ， 即 使 在 编译 
时 刻 知道 p 的 声明 直接 峙 套 在 dg 之 和 内， 我 们 并 不 能 由 此 确定 它们 的 活动 记 
录 在 运行 时 刻 的 相对 位 置 。 实 际 上 ， 因 为 p 或 q 或 者 两 者 都 可 能 是 递归 
的 ， 在 栈 中 可 能 有 多 个 p 和 /或 q 的 活动 记录 。 


为 一 个 内 花 过 程 p 中 的 一 个 非 局 部 名 字 x 找 出 对 应 的 声明 是 一 个 静态 
的 决定 过 程 ， 将 块 结构 的 静态 作用 域 规则 进行 扩展 就 可 以 解决 这 个 问 
题 。 假 定 x 在 一 个 外 围 过 程 q 中 声明 。 根 据 p 的 一 个 活动 找到 相关 的 q 的 活 
动 则 是 一 个 动态 的 决定 过 程 ， 它 需要 额外 的 有 关 活 动 的 运行 时 刻 信息 。 
这 个 问题 的 可 能 解决 方法 之 一 是 使 用 “访问 链 ”>， 我 们 将 在 7.3.5 节 中 介绍 
这 个 概念 。 











7.3.3 ”一 个 文 持 舱 套 过 程 声 明 的 语言 


在 C 系 列 语言 中 ， 还 有 很 多 常见 的 语言 不 支持 和 伦 套 的 过 程 ， 因 此 我 
们 介绍 一 种 支持 嵌 套 过 程 的 语言 。 在 语言 中 支持 侍 套 过 程 的 历史 比较 
长 。Alogl 60〈C 语 言 的 前 身 之 一 ) 就 具备 这 种 能 力 。Algol 60 语 言 的 后 
继 Pascal 一 个 一 度 很 流行 的 教学 语言 ， 也 支持 艇 套 过 程 。 在 较 晚 的 支 
持 舱 套 过 程 的 语言 中 ， 最 有 影响 力 的 语言 之 一 是 ML 。 我 们 将 通过 这 个 
语言 的 语法 和 语义 进行 相关 介绍 (要 了 人 解 ML 的 一 些 有 趣 特征 ， 请 
见 “ML 的 更 多 特性 ”部 分 〉。 


。 ML 是 一 种 函数 式 语 言 (functional language) ， 这 意味 着 变量 一 旦 




















被 声明 并 初始 化 就 不 会 再 改变 。 其 中 只 有 少数 几 个 例外 ， 比 如 数组 
的 元 素 可 以 通过 特殊 的 函数 调用 改变 。 
。 定义 变量 并 设 定 它们 的 不 可 更 改 的 初始 值 的 语句 具有 如 下 形式 : 


val, (nanel = expression) 
。 函数 使 用 如 下 语法 进行 定义 : 
fun (name) ( (arguments) ) = (body) 
。 我们 使 用 下 列 形式 的 let 语 句 来 定义 函数 体 : 
let (list of definitions) in (statements) end 


其 中 ， 定 义 (definition〉 通常 是 val 或 fun 语 句 。 每 个 这 样 的 定义 的 作用 
域 包括 从 该 定义 之 后 直到 in 为 止 的 所 有 定义 ， 以 及 直到 end 为 止 的 所 有 
语句 。 最 重要 的 是 ， 函 数 可 以 藤 套 地 定义 。 例 如 ， 函 数 p 的 函数 体 可 能 
包括 一 个 let 语 句 ， 而 该 语句 义 包含 了 为 一 个 ( 构 套 的 ) 函数 q 的 定义 。 
I 函数 定义 ， 这 束 形 成 了 任意 深度 的 
函数 艇 套 。 





7.3.4 巾 套 深度 


对 于 不 内 髓 在 任何 其 他 过 程 中 的 过 程 ， 我 们 设 定 其 衣 套 深度 
(nesting depth) 为 1。 例 如 ， 所 有 C 函 数 的 般 套 深度 为 1。 然 而 ， 如 果 一 
个 过 程 p 在 一 个 众 套 深度 为 i 的 过 程 中 定义 ， 那 么 我 们 设 定 p 的 纵 套 深度 
为 i+1。 


图 7-10 给 出 了 我 们 连续 使 用 的 快速 排序 例子 的 一 个 ML 程序 的 概 
委 。 了 唯一 的 租 套 深度 为 1 的 函数 是 最 外 层 的 函数 sort。 和 它 读 入 一 个 有 9 个 
整数 的 数组 a， 并 使 用 快速 排序 算法 对 它们 进行 排序 。 在 sort 内 部 的 第 二 
行 上 定义 了 数组 a 本 号。 请 注意 ML 声明 的 形式 。array 的 第 一 个 参数 说 
明 我 们 要 求 该 数组 具有 11 个 元 素 。 所 有 的 ML 数组 的 下 标 都 是 从 0 开始 的 
整数 ， 因 此 这 个 数组 与 图 7-2 中 的 C 语 言 数组 a 很 相似 。array 的 第 二 个 参 
数 说 明 数 组 a 中 的 所 有 元 系 的 初始 值 都 是 0。 因 为 0 是 整数 ， 选 择 这 样 的 








初始 值 使 得 ML 编译 器 推断 出 a 是 一 个 整 型 数组 ， 因 此 我 们 残 不 需要 为 a 
声明 一 个 类 型 。 





1) fun sort(inputFile, outputFile) = 
let 


2) val a = array(11,0); 
3) fun readArray(inputFile) = .…- 
4) i BS 
5) fun exchange(i,j) = 
6) i 
7) fun quicksort(m,n) = 
let 
8) val VV =... ; 
9) fun partition(y,2z) = 
10) aa V.:... exchange .… 
in 
11) ‘a. V'::. partition ... quicksort 
end 
in 
12) .+ a.:.. readArray ::: quicksort …: 
end 





图 7-10 一 个 使 用 贬 套 码 数 声明 的 由 风格 的 quicksort 有 版 本 





MIL 的 更 多 特性 
ML 几乎 是 纯 函 数 式 的 语言 。 除 此 之 外 ，ML 还 具有 多 个 令 那 些 熟 





悉 C 及 C 系 列 语言 的 程序 员 感 到 惊奇 的 特性 : 


。 ML 支持 高 阶 涵 数 〈(higher-order function) 。 也 就 是 说 ， 一 个 函数 
可 以 将 函数 作为 参数 ， 并 且 能 够 构造 并 返回 其 他 函数 。 而 这 些 函 
数 又 可 以 将 函数 作为 参数 。 从 而 构造 出 任何 层次 的 函数 。 

。 ML 本 质 上 没有 像 C 中 的 for 和 while 语 句 那 样 的 迭代 语句 ， 而 是 通 
过 递归 来 达到 循环 的 效果 。 这 种 方法 在 一 个 函数 式 语言 中 是 很 重 
要 的 ， 因 为 我 们 不 能 改变 迭代 变量 ， 比 如 C 语 言 中 的 “for (i=0; 
i<19; i++) ”的 i 的 值 。ML 将 会 把 i 作为 一 个 函数 的 参数 ， 该 函数 
将 用 不 断 增加 的 i 值 作为 参数 递归 地 调用 自身 ， 直 到 到 达 循 环 界 


限 为 止 。 
。 ML 将 列表 和 珊 标 号 的 树 结 构 作 为 其 基本 数据 类 型 。 








。 ML 不 需要 声明 变量 的 类 型 。 准 确 地 说 ， 它 在 编译 时 刻 推 导出 类 
型 ， 并 且 当 它 不 能 推导 出 结果 时 就 将 其 作为 错误 处 理 。 例 
如 ，val x=1 显 然 使 得 x 具 有 整数 类 型 ， 并 且 如 果 我 们 还 看 到 val 
y=2*x， 那 么 我 们 就 知道 y 也 是 一 个 整数 。 





在 sort 中 声明 的 函数 还 有 : readArray、exchange 和 quicksort。 在 第 
(4) 行 和 第 (6) 行 中 ， 我 们 说 明 readArray 和 exchange 都 访问 了 数组 
a。 请 注意 ，ML 中 的 数组 访问 可 能 违反 这 个 语言 的 函数 式 特 性 。 就 像 C 
版 本 的 quicksort 中 那样 ， 这 两 个 函数 实际 上 都 改变 了 a 中 元 素 的 值 。 因 为 
所 以 它们 的 纶 套 
深度 部 是 2。 


第 (7) 行 到 第 (11) 行 给 出 了 quicksort 的 一 些 细节 。 局 部 值 v( 即 
分 划算 法 的 分 割 值 ) 在 第 8 行 声 明 。 第 (9) 行 则 给 出 了 函数 partition 的 
定义 。 在 第 (10) 行 中 我 们 指出 partition 访 问 了 数组 a 和 分 割 值 v， 并 且 
还 调用 了 函数 exchange。 因 为 partition 直 接 在 舱 套 深度 为 2 的 函数 中 定 
义 ， 所 以 其 般 套 深度 为 3。 第 (11) 行 表明 guicksort 访 问 变 量 a 和 Vv 以 及 函 
数 partition， 并 递归 调用 其 自 号 。 


第 (12) 行 表明 最 外 层 函 数 sort 访 问 a， 并 调用 两 个 过 程 readArray 和 
quicksort。 


7.3.5 访问 链 





针对 藤 套 函数 的 通 第 的 静态 作用 域 规 则 的 一 个 直接 实现 方法 是 在 每 
个 活动 记录 中 增加 一 个 被 称 为 访问 链 (access link) 的 指针 。 如 果 过 程 p 
在 源 代码 中 直接 骨 套 在 过 程 q 中 ， 那 么 p 的 任何 活动 中 的 访问 链 都 指 癌 最 
近 的 q 的 活动 。 请 注意 ，dq 的 磐 套 深度 一 定 比 p 的 从 套 深度 恰巧 少 1。 访 问 
链 形成 了 一 条 链 路 ， 它 从 栈 顶 活动 记录 开始 ， 经 过 般 套 深度 逐步 递减 的 
活动 的 序列 。 沿 着 这 条 链 路 找到 的 活动 就 是 其 数据 和 对 应 过 程 可 以 被 当 
前 正在 运行 的 过 程 访问 的 所 有 活动 。 


假定 栈 顶 的 过 程 p 的 嵌 套 深度 是 nm 且 p 需 要 访问 x， 而 x 是 在 某 个 包围 
p 的 坐 套 深度 为 nq 的 过 程 q 中 定义 的 一 个 元 系 。 注 意 ，nqsnh， 且 仅 当 p 和 d 








是 同一 个 过 程 时 两 者 相等 。 为 了 找到 x， 我 们 从 位 于 栈 项 的 p 的 活动 记录 
开始 ， 沿 着 访问 链 进行 nn 次 从 一 个 活动 记录 到 另 一 个 活动 记录 的 查 

找 ， 最 终 我 们 找到 了 q 的 活动 记录 。 这 一 定 是 当前 出 现在 在 栈 中 的 最 近 
( 即 最 高 ) 的 q 的 活动 记录 。 这 个 活动 记录 中 包含 了 我 们 要 找 的 元 素 x。 
因为 编译 器 知道 活动 记录 的 布局 ， 所 以 我 们 可 以 根据 最 后 一 个 访问 链 找 
到 4 的 活动 记录 中 的 某 个 位 置 ， 而 x 就 位 于 和 这 个 位 置 具有 菜 个 固定 信和 


We 图 7-11 给 出 了 图 7-10 中 的 函数 sort 在 执行 时 可 能 得 到 的 栈 的 序 
|。 辣 以 前 一 样 ， 我 们 用 函数 名 的 第 一 个 字母 来 表示 函数 。 我 们 展示 了 
某 些 可 能 在 不 同 活动 记录 中 出 现 的 数据 ， 同 时 显示 了 每 个 活动 的 访问 
链 。 在 图 7-11a 中 ， 我 们 看 到 的 是 sort 调 用 readArray 将 输入 加 载 到 数组 a 
上 后 再 调用 quicksort (1，9) 对 数组 进行 排序 的 情形 。quicksort (1， 
9) 中 的 访问 链 指 问 sort 的 活动 记录 ， 这 不 是 因为 sort 调 用 了 了 quicksort， 
We sort 是 qucksort 外 围 的 最 靠近 它 的 航 套 也 






















































































起 2 塌 Ss 
| 访问 链 | _ 访问 链 | _ 访问 链 | 访问 链 
a a (08 a 
| | 9 | | ad9 IN | a1,9) 
| 访问 链 /| 访问 链 访问 链 | | _ 访问 链 | 
Uv U 人 7 ?7 
a) | 9(1,3) | ) | _ 9(1,3) | 
_ 访 问 链 访问 链 
VU 超 
b) _ pl) 3) 
c) | et 3) 
| 访问 链 
d) 


图 7-11 用 来 查找 非 局 部 数据 的 访问 链 


在 图 7-11 所 示 的 连续 步骤 中 ， 我 们 看 到 对 quicksort (1，3) 的 一 次 
递归 调用 ， 然 后 是 对 partition 的 调用 ， 而 partition 又 调用 exchange。 请 注 
意 ，duicksort (1，3) 的 访问 链 指向 sort， 其 理由 和 quicksort (1，9) 的 


访问 链 指向 sort 的 理由 相同 。 


在 图 7-11d 中 ，exchange 的 访问 链 绕 过 了 guicksort 和 partition 的 活动 
记录 ， 因 为 exchange 直 接 舱 套 在 sort 中 。 这 种 安排 是 合理 的 ， 因 为 
exchange 只 需要 访问 数组 a， 而 它 要 对 换 的 两 个 元 素 由 其 参数 1 和 j 指 定 。 








7.3.6 “处理 访问 链 


如 何 确定 访问 链 呢 ? 当 一 个 过 程 调用 另 一 个 特定 的 过 程 ， 而 被 调用 
过 程 的 名 字 在 此 次 调用 中 明确 给 出 ， 那 么 处 理 方法 就 很 简单 。 更 复杂 的 
情况 是 当 调 用 的 对 象 是 一 个 过 程 型 参数 的 时 候 。 在 那 种 情况 下 ， 要 在 运 
行 时 刻 才 能 知道 被 调用 的 是 哪个 过 程 ， 因 此 在 这 个 调用 的 不 同 执行 中 ， 
被 调用 过 程 的 藤 套 深度 可 能 有 所 不 同 。 因 此 ， 让 我 们 首先 考 夸 当 一 个 过 
程 q 显 式 地 调用 过 程 p 时 会 发 生 什 么 事情 。 有 三 种 情况 : 


1) 过 程 p 的 艇 套 深 度 大 于 q 的 岁 套 深度 ， 那 么 p 一 定 是 直接 在 q 中 定 
义 的 ， 否 则 g 调 用 p 的 位 置 就 不 可 能 位 于 过 程 名 p 的 作用 域内 。 因 此 ，p 的 
舱 套 深度 恰好 比 q 的 散 套 深度 大 1， 而 p 的 访问 链 一 定 指 癌 q。 这 个 问题 很 
简单 ， 只 需要 在 调用 代码 序列 中 增加 一 个 步 又， 即 在 p 的 访问 链 中 放置 
一 个 指 癌 q 的 活动 记录 的 指针 。 这 样 的 例子 包括 sort 对 quicksort 的 调用 ， 
该 调用 生成 了 图 7-11a;， 以 及 quicksort 对 partition 的 调用 ， 该 调用 产生 了 
图 7-11c。 


2) 这 个 调用 是 递归 的 ， 也 就 是 说 p=q 内 。 那 么 ， 新 的 活动 记录 的 访 
问 链 和 它 下 面 的 活动 记录 的 访问 链 是 相同 的 。 例 如 quicksort (1，9) 对 
quicksort (1，3) 的 调用 ， 该 调用 形成 了 图 7-11b。 


3) p 的 柑 套 深度 n, 小 于 q 的 柑 套 深度 ng。 为 了 使 g 中 的 调用 位 于 名 字 
p 的 作用 域 中 ， 过 程 q 必 定 嵌 套 在 某 个 过 程 中 ， 而 p 是 一 个 直接 在 r 中 定义 
的 过 程 。 因 此 ， 从 q 的 活动 记录 开始 ， 沿 着 访问 链 经 过 ng-n+1 步 就 可 以 
找到 校 中 最 高 的 :的 活动 记录 。 那 么 ，P 的 访问 链 必 须 指向 "的 这 个 活动 记 





























作为 情况 3 的 一 个 例子 ， 请 注意 我 们 是 如 何 从 图 7-11c 转 变 为 图 
7-11d 的 。 被 调用 函数 exchange 的 伦 套 深度 为 2， 比 调用 函数 partition 的 蔡 


套 深 度 3 少 1。 因 此 ， 我 们 从 partition 的 活动 记录 开始 ， 前 进 3-2+1=2 个 访 
问 链 ， 这 使 我 们 从 partition 的 活动 记录 到 达 quicksort (1，3) 的 活动 记 
录 ， 再 到 sort 的 活动 记录 。 因 此 ，exchange 的 访问 链 指向 sort 的 这 个 活动 
记录 ， 这 就 是 我 们 在 图 7-11d 中 看 到 的 。 


为 一 种 等 价 的 找到 这 个 访问 链 的 方法 是 党 看 访问 链 前 进 ng-np 步 ， 并 
拷贝 在 那个 活动 记录 中 找到 的 访问 链 。 在 我 们 的 例子 中 ， 我 们 将 经 过 一 
步 公 人 达 quicksort (1，3) 的 活动 记录 ， 并 拷贝 出 它 的 指 同 sort 的 访问 
链 。 请 注意 ， 这 个 访问 链 对 于 exchange 来 说 是 正确 的 ， 尽 管 exchange 不 
在 quicksort 的 作用 域 中 ， 这 两 个 函数 是 肉 套 在 sort 中 的 兄弟 函数 。 





7.3.7 ”过 程 型 参数 的 访问 链 


当 一 个 过 程 p 作 为 参数 传递 给 妨 一 个 过 程 g， 并 且 q 随 后 调用 了 这 个 
参数 《〈 因 此 也 就 在 qd 的 这 个 活动 中 调用 了 p) ， 有 可 能 q 并 不 知道 p 在 程序 
中 出 现时 的 上 下 文 。 如 果 是 这 样 ，q 束 不 可 能 知道 如 何 为 p 设 定 访 问 链 。 
这 个 问题 的 解决 办 法 如 下 : 当 过 程 被 用 作 参 数 的 时 候 ， 调 用 者 除了 传递 
过 程 参数 的 名 字 ， 同 时 还 需要 传递 这 个 参数 对 应 的 正确 的 访问 链 。 


调用 者 总 是 知道 这 个 访问 链 ， 因 为 如 果 p 被 过 程 r 当 作 一 个 实在 参数 
传递 ， 那 么 p 必 然 是 一 个 可 以 被 r 访 问 的 名 字 。 因 此 ，r 可 以 像 直 接 调 用 p 
那样 为 p 确 定 访问 链 。 也 就 是 说 ， 我 们 使 用 7.3.6 节 中 给 出 的 有 关 构 造访 
问 链 的 规则 。 
ps) 在 图 7-12 中 ， 我 们 看 到 一 个 ML 函数 a 的 大 体 描述 。 函 数 a 中 髓 套 


b 和 c。 函 数 b 有 一 个 值 为 函数 的 参数 f，b 调 用 了 这 个 参数 。 函 数 c 
在 它 自 身 中 定义 了 一 个 函数 dd， 然后 c 用 实在 参数 d 调 用 了 b。 


fun a(x) = 
let 
fun b(f) = 
Pe 
fun c(y) = 
let 


fun d(z) = .…: 





图 7-12 使 用 涵 数 参数 的 由 程序 的 概要 


让 我 们 分 析 一 下 在 执行 a 的 时 候 发 生 了 什么 事情 。 首 先 ，a 调 用 c， 
因此 我 们 在 栈 中 将 c 的 活动 记录 放 在 a 的 活动 记录 之 上 。 因 为 c 是 直接 在 a 
中 定义 的 ， 所 以 c 的 访问 链 指向 a 的 记录 。 然 后 c 调 用 b (d) 。 调 用 代码 
序列 设置 了 b 的 活动 记录 ， 如 图 7-13a 所 示 。 

















b) 
图 7-13” 带 有 它们 自己 的 访问 链 的 实在 参数 


在 这 个 活动 记录 中 有 实在 参数 d 和 它 的 访问 链 ， 两 者 结合 组 成 了 b 的 
活动 记录 中 的 形式 参数 { 的 值 。 请 注意 ，c 了 解 d 的 信息 ， 因 为 4 是 在 c 中 
定义 的 ， 因 而 c 传 递 了 一 个 指 辣 它 自己 的 活动 记录 的 指针 作为 d 的 访问 
链 。 不 管 d 在 哪里 定义 ， 如 果 c 在 该 定义 的 作用 域内 ， 那 么 必然 适用 7.3.6 
市 中 的 三 条 规则 之 一 ， 因 此 c 可 以 给 出 这 个 访问 链 。 


现在 让 我 们 看 一 下 函数 b 所 做 的 工作 。 我 们 知道 它 将 在 某 个 点 上 使 
用 它 的 参数 f， 其 效果 就 是 调用 了 d。 如 图 7-13b 所 示 ，d 的 一 个 活动 记录 
出 现在 栈 中 。 应 该 放 在 这 个 活动 记录 中 的 正确 的 访问 链 可 以 在 参数 { 的 
值 中 找到 。 该 访问 链 指向 c 的 活动 记录 ， 因 为 c 束 在 d 的 定义 的 外 围 。 请 
注意 ，b 能 够 正确 地 设置 这 个 访问 链 ， 尽 管 b 不 在 c 的 定义 的 作用 域内 。 





758 显示 过 


使 用 访问 链 的 方法 来 访问 非 局 部 数据 的 问题 之 一 是 ， 如 果 共 套 深度 


变 大 ， 我 们 就 必须 沿 着 一 段 很 长 的 访问 链 路 才能 找到 需要 的 数据 。 一 个 
更 高 效 的 实现 方法 是 使 用 一 个 称 为 显示 表 (display)〉 的 辅助 数组 d， 它 
为 每 个 舱 套 深度 保存 了 一 个 指针 。 我 们 设法 使 得 在 任何 时 刻 ， 指 针 

d [ij 指向 栈 中 最 高 的 对 应 于 茶 个 组 套 深 度 为 的 过 程 的 活动 记录 。 图 7- 
14 给 出 了 一 个 显示 表 的 例子 。 例 如 ， 在 图 7-14d 中 ， 我 们 看 到 显示 表 d 的 
元 素 d [1j] 保存 了 一 个 指 辣 sort 的 活动 记录 的 指针 ， 该 活动 记录 是 最 局 
的 《也 是 唯一 的 ) 对 应 于 茶 个 明 套 深度 为 1 的 函数 的 活动 记录 。 同 时 ， 

d [2j」 保存 了 指 网 exchange 的 活动 记录 的 指针 ， 该 记录 是 藤 套 深度 为 2 
的 最 高 活动 记录 。d [3] 指向 partition， 即 符 套 深度 为 3 的 最 高 活动 记 
未 ， 


























使 用 显示 表 的 优势 在 于 如 果 过 程 p 正 在 运行 ， 且 它 需 要 访问 属于 某 
个 过 程 q 的 元 素 x， 那 么 我 们 只 需要 得 看 d [ij 即 可 。 其 中 ，i 十 q 的 租 套 
深度 。 我 们 沿 着 指针 d [ij 找到 gq 的 活动 记录 ， 根 据 已 知 的 偏 移 量 就 可 
以 在 这 个 活动 记录 中 找到 x。 编 译 占 知道 的 值 ， 因 此 它 可 以 产生 代码 ， 
该 代码 根据 d Lij 和 x 相对 于 q 的 活动 记录 项 部 的 偏 移 量 来 访问 x。 因 
此 ， 该 代码 不 需要 经 过 一 段 很 长 的 访问 链 路 。 


为 了 正确 地 维护 显示 表 ， 我 们 需要 在 新 的 活动 记录 中 保存 显示 表 条 
目的 原来 的 值 。 如 果 骨 套 深度 为 n, 的 过 程 p 被 调用 ， 并 且 它 的 活动 记录 
不 是 栈 中 的 对 应 于 某 个 深度 为 m, 的 过 程 的 第 一 个 活动 记录 ， 那 么 p 的 活 
动 记录 就 需要 保存 d [n,] 原来 的 值 ， 同 时 d [n,] 本 身 则 被 设 定 指向 p 
的 这 个 活动 记录 。 当 p 返 回 且 它 的 这 个 活动 记录 从 栈 中 清除 时 ， 我 们 将 
d [n,] 恢复 到 对 p 的 这 次 调用 之 前 的 值 。 


人 图 7-14 给 出 了 操作 显示 表 的 若干 步 又。 在 图 7-14a 中 ， 深 度 为 1 
ysort 调 用 了 深度 为 2 的 quicksort (1，9) 。quicksort 的 活动 记录 中 有 一 
个 用 于 存放 d [2] 的 原 值 的 位 置 ， 图 中 显示 为 “保存 的 d [2] ”， 尽 管 在 
这 个 例子 中 因为 之 前 没有 深度 为 2 的 活动 记录 ， 这 个 指针 为 空 。 
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图 7-14 ”维护 显示 表 


在 图 7-14b 中 ，quicksort (1，9) 调用 quicksort (1，3) 。 因 为 这 两 
次 调用 的 活动 记录 的 深度 都 为 2， 所 以 我 们 必须 首先 将 d [2」 中 指 癌 
quicksort (1，9) 的 指针 保存 到 quicksort (1，3) 的 活动 记录 中 去 。 然 
后 d [2] 被 设置 为 指 同 quicksort (1，3) 。 


下 一 步调 用 partition。 这 个 水 数 的 舱 套 深度 为 3， 因 此 我 们 将 首次 使 
用 显示 表 中 的 d L3」 位 置 ， 并 使 它 指 同 partition 的 活动 记录 。partition 的 
记录 中 有 一 个 存放 原来 的 d [3] 值 的 位 置 。 但 是 在 这 个 例子 中 ，d [3j 
人 因此 这 个 位 置 上 的 指针 为 室 。 此 时 的 显示 表 和 栈 如 图 7- 
14c 上 用 泵 。 








然后 ，partition 调 用 exchange。 函 数 exchange 的 舱 套 深度 为 2， 因 此 








它 的 活动 记录 保存 了 旧 的 d [2] 指针 ， 即 指向 quicksort (1，3) 的 活动 
记录 的 指针 。 请 注意 ， 这 里 出 现 了 多 个 显示 表 指 针 之 间 相 互 交 叉 的 情 
况 。 也 就 是 说 ，d [3] 指向 的 位 置 比 d [2] 所 指 位 置 更 低 。 这 是 一 个 正 
因为 exchange 只 访问 它 自己 的 数据 和 通过 d [1] 访问 的 sort 





7.3.9 7.3 节 的 练习 


练习 7.3.1: 图 7-15 中 给 出 了 一 个 按照 非 标准 方式 计算 Fibonacci 数 的 
ML 语言 的 函数 main。 函 数 fibo 将 计算 第 n 个 Fibonacci 数 (nz0) 。 舰 套 
在 fibo 中 的 是 fib1， 它 假设 n>2 并 计算 第 n 个 Fibonacci 数 。 髓 套 在 fibi 中 
的 是 fib2， 它 假设 nz>4。 请 注意 ，fib1 和 fib2 都 不 需要 检查 基本 情况 。 
我 们 考虑 从 对 main 的 调用 开始 ， 直 到 (对 fibe (1) 的 ) 第 一 次 调用 即将 
0 请 描述 出 当时 的 活动 记录 栈 ， 并 给 出 栈 中 的 各 个 活动 记录 
J 访问 链 。 


练习 7.3.2: 假设 我 们 使 用 显示 表 来 实现 图 7-15 中 的 函数 。 请 给 出 对 
fibg (1) 的 第 一 次 调用 即将 返回 时 的 显示 表 。 同 时 指明 那 时 在 栈 中 的 各 
个 活动 记录 中 保存 的 显示 表 条 目 。 





fun main () { 
let 
fun fib0(n) = 
let 
fun fibl(n) = 
let 


fun fib2(n) = fibl(n-1) + fibl(n-2) 
in 
if n >= 4 then fib2(n) 
else fib0O(n-1) + fib0(n-2) 
end 
in 
if n >= 2 then fibl(n) 
else 1 
end 
in 
fib0(4) 
end ; 








图 7-15 计算 Fibonacci 数 的 腐 套 函数 


7.4 挫 管 理 


堆 是 存储 空间 的 一 部 分 ， 它 被 用 来 存储 那些 生命 周期 不 确定 ， 或 者 
将 生存 到 被 程序 显 式 删除 为 止 的 数据 。 虽 然 局 部 变量 通常 在 它们 所 属 的 
过 程 结 束 之 后 就 变 得 不 可 访问 ， 但 很 多 语言 文 持 创 建 茶 种 对 象 或 其 他 数 
据 ， 它 们 的 存在 与 否 和 创建 它们 的 过 程 的 活动 无 天 。 例 如 ，C++ 和 Java 
语言 都 为 程序 员 提 供 了 new 语句 ， 该 语句 创建 的 对 象 〈 或 指向 对 象 的 指 
针 ) 可 以 在 过 程 乙 间 进 行 传递 ， 因 此 这 些 对 象 在 创建 它们 的 过 程 结束 之 
后 仍然 可 以 长 期 存在 。 这 样 的 对 象 被 存放 在 堆 区 。 


在 本 节 中 ， 我 们 将 讨论 存储 管理 器 (memory manager) ， 即 分 配 和 
回收 堆 区 空间 的 子 系 统 ， 它 是 应 用 程序 和 操作 系统 之 间 的 一 个 接口 。 对 
于 C 或 C++ 这 样 需要 手动 回收 存储 块 的 语言 〈 即 通过 程序 中 的 显 式 语 
句 ， 比 如 free 或 delete， 进 行 回 收 ) 而 言 ， 存 储 管理 器 还 负责 实现 空间 
回收 。 


我 们 将 在 7.5 节 中 讨论 坛 圾 回收 〈garbage collection) ， 即 在 堆 区 中 
找到 那些 不 再 被 程序 使 用 、 因 此 可 以 被 重新 分 配 以 便 存 放 其 他 数据 项 的 
空间 的 过 程 。 对 于 Java 这 样 的 语言 ， 内 存 的 回收 是 由 垃圾 回收 器 完成 
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7.4.1 存储 管理 需 


存储 管理 器 总 是 跟踪 扒 区 中 的 空闲 空间 。 它 具有 两 个 基本 的 功能 : 


。 分 配 。 当 程序 为 一 个 变量 或 对 象 请 求 内 存 时 六 ， 存 储 管理 器 产生 一 
段 连续 的 具有 被 请 求 大 小 的 堆 空 间 。 如 果 有 可 能 ， 它 使 用 堆 中 的 空 
朵 空间 来 满足 分 配 请 求 ， 如 果 没 有 被 请 求 大 小 的 空间 块 可 供 分 配 ， 
它 试 图 从 操作 系统 中 获得 连续 的 虚拟 内 存 来 增加 扒 区 的 存储 空间 。 
如 果 空 间 已 经 用 完 ， 存 储 管 理 器 将 空间 耗 尽 的 信息 传 回 给 应 用 程 


序 。 
。 回收 。 存 储 管理 器 把 被 回收 的 空间 返还 到 空闲 空间 的 缓冲 池 中 ， 这 








样 它 可 以 复 用 该 空间 来 满足 其 他 的 分 配 请 求 。 存 储 管 理 需 通 向 不 会 
将 内 存 返回 给 操作 系统 ， 即 使 当 这 个 程序 不 再 需要 那么 多 的 堆 空 间 
时 也 不 会 归还 给 操作 系统 。 


如 果 下 面 的 Ca) 、 (b) 两 个 条 件 都 成 立 ， 内 存 的 管理 束 会 相对 简 
单 : (a) 所 有 分 配 请 求 都 要 求 相 同 大 小 的 存储 块 ，(b) 存储 空间 按照 
可 预见 的 方式 被 释放 ， 比 如 先 分 配 先 回收 。 对 于 有 些 语言 (比如 Lisp) 
而 言 条 件 a 成 立 。 纯 的 Lisp 语 言 只 使 用 一 种 数据 元 素 一 个 双 指 针 单 
元 ， 所 有 的 数据 结构 都 在 该 元 素 的 基础 上 构建 。 条 件 b 在 某 些 情况 下 也 
可 能 成 立 ， 最 常见 的 情况 是 可 以 在 运行 时 刻 栈 中 分 配 的 数据 。 然 而 ， 对 
于 大 部 分 的 语言 而 言 ， 这 两 个 条 件 一 般 都 不 成 立 。 相 反 地 ， 我 们 需要 为 
0 

J 生 命 期 。 


因此 ， 存 储 管理 器 必须 准备 以 任何 顺序 来 处 理 任何 大 小 的 空间 分 配 
和 回收 请 求 。 这 些 请 求 小 到 一 个 字 节 ， 大 到 该 程序 的 整个 地 址 空间 。 


下 面 是 我 们 期 望 存储 管理 器 具有 的 特性 : 


空间 效率 。 人 存储 管理 喜 应 该 能 够 使 一 个 程序 所 需 的 堆 区 空间 的 总 量 
达到 最 小 。 这 样 做 就 可 以 在 一 个 固定 大 小 的 虚拟 地 址 空间 中 运行 更 
大 的 程序 。 空 间 效 率 是 通过 使 存储 碎片 达到 最 少 而 得 到 的 ， 该 技术 
将 在 7.4.4 节 中 讨论 。 

程序 效率 。 存 储 管理 器 应 该 充分 利用 存储 子 系统 ， 使 程序 可 以 运行 
得 更 快 。 我 们 将 在 7.4.2 节 中 看 到 ， 根 据 数据 对 象 在 存储 中 所 处 的 不 
同位 置 ， 执 行 一 条 指令 所 花费 的 时 间 可 能 相差 很 大 。 笠 运 的 是 ， 程 
序 通 销 会 表现 出 “局 部 性 ”，7.4.3 节 将 讨论 这 种 现象 ， 它 指 的 是 通 篆 
的 程序 在 访问 内 存 时 具有 的 非 随 机 性 聚集 的 特性 。 通 过 关注 对 象 在 
存储 中 的 放置 方法 ， 存 储 管理 器 可 以 更 好 地 利用 空间 ， 并 且 有 希望 
使 程序 运行 得 更 快 。 

低 开 销 。 因 为 存储 分 配 和 回收 在 很 多 程序 中 是 常用 的 操作 ， 因 此 使 
得 这 些 操作 尽 可 能 地 高 效 是 非常 重要 的 。 也 就 是 说 ， 我 们 希望 最 小 
化 开销 〈overhead) ， 即 花费 在 分 配 和 回收 上 的 执行 时 间 在 总 运行 
时 间 中 所 占 的 比例 。 请 注意 ， 分 配 的 开销 由 小 型 请 求 决定 ， 管 理 大 
型 对 象 的 开销 相对 不 重要 ， 因 为 通常 会 在 它 上 面 执行 大 量 的 计算 ， 
这 个 开销 被 分 挫 了 了 。 





















































7.4.2 一 人 台 计 算 机 的 存储 层次 结构 


存储 管理 和 编译 器 优化 必须 在 充分 了 解 存储 行为 的 基础 上 完成 。 现 
代 机 占 的 设计 使 得 程序 员 不 需要 考虑 内 存 子 系统 的 细 忆 就 能 够 写 出 正确 
的 程序 。 然 而 ， 程 友 的 效率 不 仅 取 决 于 被 执行 的 指令 的 数量 ， 还 取决 于 
执行 其 中 每 条 指令 所 花费 的 时 间 。 不 同情 况 下 执行 一 条 指令 所 花费 的 时 
间 可 能 会 有 明显 的 不 同 ， 因 为 访问 不 同 的 存储 区 域 所 花费 的 时 间 从 几 纳 
秒 到 几 军 秒 不 等 。 因 此 ， 数 据 密集 型 程序 可 以 从 能 够 充分 利用 存储 子 系 
统 的 优化 技术 中 得 到 很 大 的 好 处 。 我 们 将 在 7.4.3 节 看 到 ， 这 种 优化 可 以 
利用 程序 的 “局 部 性 ?现象 ， 即 一 般 程 序 的 非 随机 行为 。 


内 存 访 问 时 间 上 的 巨大 差异 源 于 硬件 技术 的 根本 性 局 限 。 我 们 可 以 
制造 出 一 个 小 而 快 的 存储 器 件 或 者 大 而 慢 的 存储 器 件 ， 但 是 无 法 制造 出 
既 大 又 快 的 存储 器 件 。 现 在 ， 制 造 一 个 具有 纳 秒 级 访问 时 间 的 千 兆 容量 
的 存储 器 件 仍然 是 不 可 能 的 ， 而 纳 秒 级 正 是 高 性 能 处 理 器 的 运行 速度 。 
因此 ， 在 实践 中 ， 现 代 计 算 机 都 以 存储 层次 结构 (memory hierarchy ) 

的 方式 安排 它们 的 存储 。 如 图 7-16 所 示 的 一 个 存储 层次 结构 由 一 系列 存 
储 元 素 组 成 ， 较 小 较 快 的 元 素 “ 更 加 接近 ”处 理 器 ， 较 大 但 较 慢 的 元 素 则 
离 存 储 器 比较 远 。 


























典型 的 大 小 典型 的 访问 时 间 















256MB ~2GB 物理 内 存 100 一 150 ns 

128KB 一 4MB 二 级 高 速 缓存 40 一 60 ns 

16~64KB 一 级 高 速 缓存 5 一 10 ns 

32 个 机 器 字 寄存 器 (处 理 器 ) 1 ns 





图 7-16 典型 的 内 存 层 次 结构 的 配置 


一 个 处 理 器 通常 具有 少量 寄存 器 ， 寄 存 器 中 的 月 容 由 软件 控制 。 锥 
后 ， 它 具有 一 层 或 多 层 高 速 缓 企 ， 这 些 高 于 级 在 通常 使 用 隐 态 RAMN 
造 ， 其 大 小 从 几 千 字 市 到 几 兆 字 节 不 等 。 层 次 络 构 中 的 下 一 层 是 物理 
( 主 ) 内 存 ， 它 由 数 百 兆 到 几 干 光 的 动态 RAM 构 成 。 物 理 内 存 由 下 一 
层 的 虚拟 内 存 提供 支持 ， 虚 拟 内 存 由 几 干 兆 字 节 的 磁盘 实现 。 在 一 次 内 
存 访问 中 ， 机 器 首先 在 最 近 【( 最 压 层 的 ) 的 存储 中 寻找 数据 ， 如 采 数 据 
不 在 那里 则 到 上 一 层 中 寻找 ， 以 此 类 推 。 


寄存 器 个 数 很 少 ， 因 此 寄存 器 的 使 用 会 根据 特定 应 用 进行 裁 蚤 ， 并 
由 编译 器 生成 的 代码 进行 管理 。 存 储 层次 结构 中 的 所 有 其 他 层 都 是 自动 
管理 的 。 这 样 做 不 仅 简化 了 编程 任务 ， 并 且 相 同 的 程序 可 以 在 具有 不 同 
存储 配置 的 机 器 上 高 效 工 作 。 对 于 每 次 存储 访问 ， 机 器 从 最 低层 开始 逐 
层 搜索 每 一 层 存 储 ， 和 直到 找到 数据 为 止 。 高 速 绥 存 是 完全 通过 人 硬件 进行 
管理 的 ， 这 么 做 是 为 了 能 够 跟 上 相对 较 快 的 RAM 访 问 时 间 。 因 为 磁盘 
访问 速度 相对 较 慢 ， 虚 拟 内 存 是 由 操作 系统 进行 管理 的 ， 辅 以 一 个 称 
为 “转换 旁 视 缓冲 ”的 硬件 结构 ， 


数据 以 连续 存储 块 的 方式 进行 传输 。 为 了 分 摊 访 问 的 开销 ， 内 存 层 
结构 中 较 慢 的 层次 通 种 使 用 较 大 的 块 。 在 主 存 和 高 速 缓存 之 间 的 数据 









































是 按照 被 称 为 高 速 缓存 线 (cache line〉 的 块 进行 传输 的 ， 高 速 绥 存 线 的 
长 度 通 利 在 32 一 256 字 节 之 间 。 在 虚拟 内 存 《〈 和 硬盘 ) 和 主 内 存 之 间 的 数 
据 是 以 被 称 为 “页 ”(page) 的 内 存 块 进行 传输 的 ， 页 的 大 小 通 稼 在 4 一 

64KB 之 间 。 


7.4.3 ”程序 中 的 局 部 性 


大 部 分 程序 表现 出 高 度 的 局 部 性 〈locality) ， 也 就 是 说 ， 程 序 的 大 
部 分 运行 时 间 花 费 在 相对 较 小 的 一 部 分 代码 中 ， 此 时 它们 只 涉及 少 部 分 
数据 。 如 果 一 个 程序 访问 的 存储 位 置 很 可 能 将 在 一 个 很 短 的 时 间 段 内 被 
再 次 访问 ， 我 们 就 说 这 个 程序 具有 时 间 局 部 性 〈temporal locality) 。 如 
条 被 访问 过 的 存储 位 置 的 临近 位 置 很 可 能 在 一 个 很 短 的 时 间 段 内 被 访 
问 ， 我 们 就 说 这 个 程序 具有 空间 局 部 性 (spatial locality) 。 


通常 认为 程序 把 90% 的 时 间 用 来 执行 10% 的 代码 。 原 因 如 下 : 


程序 经 党 包含 很 多 从 来 不 会 被 执行 的 指令 。 使 用 组 件 和 库 构 建 得 到 
的 程序 只 使 用 了 它们 提供 的 一 小 部 分 功能 。 同 时 ， 随 着 需求 的 改变 
和 程序 的 演化 ， 遗 留 系统 中 常 肖 包含 很 多 不 再 被 使 用 的 指令 。 

在 程序 的 一 次 典型 运行 中 ， 可 能 被 调用 的 代码 中 只 有 一 小 部 分 会 被 
实际 执行 。 例 如 ， 虽 然 处 理 非法 输入 和 弄 常 情况 的 指令 对 于 程序 的 
正确 性 是 至 关 重 要 的 ， 但 是 它们 在 茶 次 运行 中 很 少 会 被 调用 。 
通常 的 程序 往往 将 大 部 分 时 间 花 费 在 执行 程序 中 的 最 内 层 循 环 和 最 
紧凑 的 递归 环 上 。 























静态 的 和 动态 的 RAM 





大 部 分 随机 访问 内 存 是 动态 的 (dynamic) ， 这 意味 着 它们 是 由 
简单 的 电子 电路 构成 的 。 这 些 电 路 会 在 短 时 间 内 丢失 电位 (因此 也 就 
会 “忘记 ”它们 原本 存储 的 比特 值 ) 。 这 些 电路 需要 定期 刷新 ， 即 读 出 
然后 重新 写 入 它们 的 比特 。 男 一 方面 ， 在 静态 (static) RAM 的 设计 
中 ， 每 个 比特 都 需要 一 个 更 复杂 的 电路 ， 结 果 是 存储 在 其 中 的 比特 值 
可 以 保持 任意 长 时 间 ， 直 到 它 被 改写 为 止 。 显 然 ， 一 个 心 厂 使 用 动态 
RAM 电 路 可 以 比 使 用 静态 RAM 电 路 存储 更 多 的 比特 。 因 此 我 们 通常 











会 看 到 动态 RAM 类 型 的 大 容量 主 存 ， 而 像 蝇 速 缓存 这 样 的 较 小 存储 
则 使 用 静态 电路 构造 。 





局 部 性 使 得 我 们 可 以 充分 利用 如 图 7-16 所 示 的 现代 计算 机 的 存储 层 
次 结构 。 将 最 第 用 的 指令 和 数据 放 在 快 而 小 的 存储 中 ， 而 将 其 余部 分 放 





入 慢 而 大 的 存储 中 ， 我 们 就 可 以 显 考 地 降低 一 个 程序 的 平均 存储 访问 时 


上 则 。 








人 们 已 经 发 现 ， 很 多 程序 在 对 指令 和 数据 的 访问 方式 上 既 表 现 出 时 
间 局 部 性 ， 又 表现 出 空间 局 部 性 。 然 而 ， 数 据 访问 模式 通常 比 指令 访问 
模式 表现 出 更 大 的 多 样 性 。 将 最 近 使 用 的 数据 放 在 最 快 的 存储 层次 中 的 
打上 略 可 以 在 普通 程序 中 发 挥 很 好 的 作用 ， 但 是 在 茶 些 数据 密集 型 程序 中 
的 作用 并 不 明显 一 一 循环 忆 历 非常 大 的 数组 的 程序 就 是 这 样 的 例子 。 


仅仅 通过 碍 看 代码 ， 我 们 一 般 无 法 看 出 哪 部 分 代码 会 被 频 党 地 用 
到 ， 针 对 特定 输入 指出 这 一 点 则 更 加 困难 。 即 使 我 们 知道 哪些 指令 会 被 
频繁 执行 ， 最 快 的 高 速 缓存 通常 也 不 能 够 同时 存储 这 些 指令 。 因 此 ， 我 
们 必须 动态 调整 最 快 的 存储 中 的 内 容 ， 用 它们 来 保存 可 能 很 快 会 被 频繁 
使 用 的 指令 。 


利用 存储 层次 结构 的 优化 


将 最 近 使 用 过 的 指令 放 入 高 速 缓存 的 策略 通 闻 很 有 效 。 换 名 话说 ， 
过 去 的 情况 能 够 很 好 地 预测 将 来 的 存储 使 用 情况 。 当 一 条 新 的 指令 被 执 
行 时 ， 其 下 一 条 指令 也 很 有 可 能 将 被 执行 。 这 种 现象 是 空间 局 部 性 的 一 
个 例子 。 提 高 指令 的 空间 局 部 性 的 一 个 有 效 技术 是 让 编译 器 把 很 可 能 连 
续 执 行 的 多 个 基本 块 〈 即 总 是 顺序 执行 的 指令 序列 ) 连续 存放 ， 即 放 在 
同一 个 存储 页 面 中 ， 可 能 的 话 甚 至 放 在 同一 高 速 缓存 线 中 。 属 于 同一 个 
循环 或 同一 个 函数 的 指令 很 有 可 能 被 一 起 运行 多 。 


我 们 还 可 以 改变 数据 布局 或 计算 顺序 ， 从 而 改进 一 个 程序 中 的 数据 
访问 的 时 间 局 部 性 和 空间 局 部 性 。 例 如 ， 一 些 程序 反复 地 访问 大 量 数 
据 ， 而 每 次 访问 只 完成 少量 的 计算 ， 这 样 的 程序 的 性 能 不 会 很 好 。 我 们 
可 以 每 次 将 一 部 分 数据 从 存储 层次 结构 的 较 慢 层次 加 载 到 较 快 层次 《〈 比 
如 从 磁盘 移 到 主 存 ) ， 并 且 在 这 些 数据 驻 留 在 较 快 层 中 时 执行 所 有 针对 
这 些 数据 的 运算 ， 那 么 程序 的 性 能 就 会 变 得 更 好 。 这 个 概念 可 以 递归 地 























应 用 于 物理 内 存 、 高 速 缓存 以 及 寄存 器 中 的 数据 的 复 用 。 


局 速 缓 存 体系 结构 


我 们 如 何 知 道 一 个 高 速 缓存 线 在 高 速 缓存 中 呢 ? 逐个 检查 高 速 组 
存 中 的 每 一 条 高 速 绥 存 线 过 于 费时 ， 因 此 在 实践 中 常常 会 限制 一 条 高 
速 绥 存 线 在 高 速 缓存 中 的 放置 位 置 。 这 个 约束 称 为 成 组 相关 性 〈set 
associativity) 。 如 果 在 一 个 高 速 缓存 中 ， 一 条 绥 存 线 只 能 被 放 在 k 个 
位 置 上 ， 那 么 这 个 高 速 绥 存 束 称 为 k 路 成 组 相关 的 〈k-way set 
associative) 。 最 简单 的 高 速 绥 存 是 1 路 相关 高 速 缓存 ， 它 也 称 为 直接 
映射 高 速 缓存 (direct-mapped cache) 。 在 一 个 直接 映射 高 速 缓存 
中 ， 存 储 地 址 为 n 的 数据 只 能 够 放 在 绥 存 地 址 n mod s 上 ， 其 中 s 是 这 个 
高 速 缓存 的 大 小 。 类 似 地 ， 一 个 k 路 成 组 相关 高 速 缓存 被 分 为 k 个 集 
合 ， 而 一 个 地 址 为 n 的 数据 只 能 映射 到 各 个 集合 中 的 位 置 n 
mod (s/k) 上 。 大 部 分 指令 和 数据 高 速 缓存 的 相关 性 在 1 一 8 之 间 。 如 
果 一 条 缓存 线 匀 Q 调 入 高 速 缓存 ， 并 且 所 有 可 能 存放 这 个 高 速 缓存 线 的 
位 置 都 已 经 被 占用 ， 那 么 通常 情况 下 会 将 最 近 最 少 使 用 的 缓存 线 清除 


























7.4.4 ”人 片 整理 


在 程序 开始 执行 的 时 候 ， 堆 区 就 是 一 个 连续 的 空闲 空间 单元 。 随 着 
这 个 程序 分 配 和 回收 存储 工作 的 进行 ， 空 间 被 分 割 成 若干 空闲 存储 块 和 
已 用 存储 块 ， 而 空闲 块 不 一 定位 于 堆 区 的 某 个 连续 区 域 中 。 我 们 将 空闲 
存储 块 称 为 “窗口 ”Chole) 。 对 于 每 个 分 配 请 求 ， 存 储 管 理 器 必须 将 请 
求 的 存储 块 放 入 一 个 足够 大 的 “窗口 "中 。 除 非 找到 一 个 大 小 恰好 相等 
的 “窗口 "， 否 则 我 们 必定 会 切 分 某 个 窗口 ， 结 果 创 建 出 更 小 的 窗口 。 


对 于 每 个 回收 请 求 ， 被 释放 的 存储 块 被 放 回 到 空 内 空间 的 缓冲 池 
中 。 我 们 把 连续 的 窗口 接合 《coalesce) 成 为 更 大 的 窗口 ， 和 否则 窗口 只 
会 越 变 越 小 。 如 果 我 们 不 小 心 ， 空 闲 存储 最 终 会 变 成 雁 片 ， 即 大 量 的 细 
小 且 不 连续 的 窗口 。 此 时 ， 就 有 可 能 找 不 到 一 个 足够 大 的 “窗口 ”来 满足 





某 个 将 来 的 请 求 ， 尽 管 总 的 空闲 空间 可 能 仍然 充足 。 
best-fit 和 mext-fit 对 象 放置 


我 们 通过 控制 存储 管理 器 在 扒 区 中 放置 新 对 象 的 方法 来 减少 碎片 。 
经 验 表 明 ， 使 现实 中 的 程序 中 碎片 最 少 的 一 个 民 好 策略 是 将 请 求 的 存储 
分 配 在 满足 请 求 的 最 小 可 用 窗口 中 。 这 个 best-fit 算 法 趋向 于 将 大 的 窗口 
保留 下 来 满足 后 续 的 更 大 请 求 。 为 一 种 集 略 被 称 为 first-fit。 在 这 个 集 略 
中 ， 对 象 被 放置 到 第 一 个 〈 即 地 址 最 低 的 ) 能 够 容纳 请 求 对 象 的 窗口 
中 。 这 种 策略 在 放置 对 象 时 花费 的 时 间 较 少 ， 但 是 人 们 发 现 它 在 总 体 性 
能 上 要 比 best-fit 策 略 差 。 


为 了 更 有 效 地 实现 best-fit 放 置 策 略 ， 我 们 可 以 根据 空 亲 空间 块 的 大 
小 ， 将 它们 分 在 铬 干 个 容器 中 。 一 个 实际 可 行 的 想法 是 为 较 小 的 尺寸 设 
置 较 多 的 容 右 ， 因 为 小 对 象 的 个 数 通 常 比较 多 。 例 如 ， 在 GNU 的 C 编 译 
器 gcc 中 使 用 的 存储 管理 器 Lea 将 所 有 的 存储 块 对 齐 到 8 字 节 的 边界 。 对 
于 16 字 节 到 512 字 节 之 间 的 、 每 个 大 小 为 8 字 节 整数 倍 的 存储 块 ， 这 个 存 
储 管 理 器 都 设置 了 一 个 容器 。 更 大 尺寸 的 容器 按照 对 数值 进行 划分 ( 即 
每 个 容器 的 最 小 尺寸 是 前 一 个 容器 的 最 小 尺寸 的 两 倍 )。 在 每 一 个 容 右 
中 ， 存 储 块 按照 它们 的 大 小 排列 。 总 是 存在 这 样 一 个 空闲 空间 块 ， 存 储 
管理 器 可 以 癌 操 作 系 统 请 求 更 多 的 页 面 来 扩展 这 个 块 。 这 个 块 被 称 
为 “总 野 块 ”(wilderness chunk) 。 因 为 它 的 可 扩展 性 ，Lea 把 这 个 块 当 
作 最 大 尺寸 存储 块 的 容器 。 


容器 机 制 使 得 寻找 best-fit 块 变 得 容易 。 


如 果 被 请 求 的 尺寸 有 一 个 专 有 容器 ， 即 该 容器 只 包含 该 尺寸 的 存储 
块 ， 我 们 可 以 从 该 容 右 中 任意 取出 一 个 存储 块 。Lea 存 储 管 理 器 在 
处 理 小 尺寸 请 求 时 就 是 这 样 做 的 。 

如 果 被 请 求 的 尺寸 没有 专 有 的 容器 ， 我 们 可 以 找 出 一 个 能 够 包含 该 
尺寸 的 存储 块 的 容器 。 在 这 个 容器 中 ， 我 们 可 以 使 用 first-fit 或 best- 
fit 策 略 。 也 束 是 说 ， 我 们 既 可 以 找到 并 选择 第 一 个 足够 大 的 存储 

块 ， 也 可 以 花 更 多 的 时 间 去 寻找 最 小 的 满足 需求 的 存储 块 。 注 意 ， 
如 果 选 择 的 空闲 存储 块 的 大 小 不 是 正好 合适 ， 通 稼 将 该 块 的 剩余 部 
分 放 到 一 个 对 应 于 更 小 尺寸 的 容器 中 。 

不 过 ， 这 个 目标 容器 可 能 为 空 ， 或 者 这 个 容器 中 的 所 有 存储 块 都 太 
小 ， 不 能 满足 空间 请 求 。 在 这 种 情况 下 ， 我 们 只 需要 使 用 对 应 于 下 
一 个 较 大 尺寸 的 容 右 重新 进行 搜索 。 最 后 ， 我 们 要 么 找到 可 以 使 用 





























的 存储 块 ， 要 么 到 达 “ 殉 野 块 >。 从 这 个 欧 野 鼎 中 我 们 一 定 可 以 得 到 
需要 的 空间 ， 但 有 可 能 需要 请 求 操 作 系 统 为 堆 区 增加 更 多 的 内 存 
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虽然 pest-fit 放 置 策略 可 以 提高 空间 利用 率 ， 但 从 空间 局 部 性 的 角度 
考虑 ， 它 可 能 并 不 是 最 好 的 。 程 序 在 同一 时 间 分 配 的 块 通常 具有 类 似 的 
访问 模式 ， 并 具有 类 似 的 生命 周期 。 因 此 将 它们 放置 在 一 起 可 以 改善 程 
序 的 空间 局 部 性 。 对 best-fit 算 法 的 有 用 改进 之 一 是 在 找 不 到 恰巧 等 于 请 
求 尺寸 的 存储 块 时 ， 使 用 为 一 种 对 象 放置 方法 。 在 这 种 情况 下 ， 我 们 使 
用 next-fit 策 略 ， 只 要 刚刚 分 割 过 的 存储 块 中 还 有 足够 的 空间 来 容纳 这 个 
对 象 ， 我 们 就 把 这 个 对 象 放置 在 这 个 存储 块 中 。nextfit 策 略 还 可 以 提高 
分 配 操作 的 速度 。 


管理 和 接合 空闲 空间 


当 一 个 对 象 通过 手工 方式 回收 时 ， 存 储 管理 融 必 须 将 该 存储 块 设置 
为 空闲 的 ， 以 便 它 可 以 被 再 次 分 配 。 在 某 些 情况 下 ， 还 可 以 将 这 个 块 和 
堆 中 的 相 邻 块 合并 接合 起来， 构成 一 个 更 大 的 块 。 这 样 做 是 有 好 处 
的 。 因 为 我 们 总 能 够 用 一 个 大 的 存储 块 来 完成 总 量 相等 的 多 个 小 存储 块 
所 完成 的 工作 ， 但 是 不 能 用 很 多 个 小 存储 块 来 保存 一 个 大 对 象 ， 而 合并 
后 的 存储 块 残 有 可 能 做 到 。 


如 果 我 们 为 所 有 具有 固定 尺寸 的 存储 块 保留 一 个 容器 ， 如 Lea 中 为 
小 尺寸 块 所 做 的 那样 ， 那 么 我 们 可 能 倾向 于 不 把 相 邻 的 该 尺寸 的 块 合并 
成 为 双 倍 大 小 的 块 。 比 较 简单 的 做 法 是 将 所 有 同样 大 小 的 块 全 部 按照 需 
要 放 在 多 个 页 中 ， 而 不 必 接合 。 那 么 ， 一 个 简单 的 分 配 /回收 方案 是 维 
护 一 个 位 映射 ， 其 中 的 每 个 比特 对 应 于 容器 中 的 一 个 块 。1 代 表 该 块 已 
被 占用 ，0 表 示 它 是 空闲 的 。 当 一 个 块 被 回收 时 ， 我 们 将 它 对 应 的 1 改 为 
0。 当 我 们 需要 分 配 一 个 存储 块 时 ， 便 找 出 任意 一 个 相应 比特 为 0 的 块 ， 
将 这 个 位 改 为 1， 然 后 就 可 以 使 用 该 内 存 块 了 。 如 果 没 有 空闲 块 ， 我 们 
就 获取 一个 新 的 页 ， 将 其 分 关 成 适当 大 小 的 存储 决 ， 同 时 扩展 用 于 存 人 
管理 的 位 向 量 。 


在 有 些 情况 下 问题 会 变 得 比较 复杂 。 比 如 ， 我 们 不 使 用 容器 而 把 堆 
区 作为 一 个 整体 进行 管理 ， 或 者 我 们 想 要 接合 相 邻 的 块 ， 并 在 必要 的 时 
候 将 合并 得 到 的 块 移动 到 为 一 个 容 占 中 。 有 两 种 数据 结构 可 以 用 于 文 持 
相 邻 空 几 块 的 接合 : 


























。 边界 标记 。 在 每 个 〈 不 管 是 空闲 的 还 是 已 分 配 的 ) 存储 块 的 高 低 两 
端 ， 我 们 都 存放 了 重要 的 信息 。 在 块 的 两 端 都 设置 了 一 个 free/used 
位 ， 用 来 标识 当前 该 块 是 已 用 的 (used) 还 是 空闲 的 〈free) 。 在 
与 每 一 个 free/used 位 相 邻 的 位 置 上 存放 了 该 块 中 的 字 节 总 数 。 

一 个 双重 链接 的 、 识 入 式 的 空闲 列表 。 各 个 空闲 块 〈 而 不 是 已 分 配 
的 块 ) 还 使 用 一 个 双重 链表 进行 链接 。 这 个 链表 的 指针 就 存放 在 这 
些 块 中 ， 比 如 说 存放 在 紧 挨 着 某 一 端 边界 标记 的 位 置 上 。 因 此 ， 不 
需要 额外 的 空间 来 存放 这 个 空闲 块 列 表 ， 尽 管 它 的 存在 为 块 的 大 小 
设置 了 一 个 下 界 。 即 使 数据 对 象 只 有 一 个 字 节 ， 存 储 块 也 必须 提供 
存放 两 个 边界 标记 和 两 个 指针 的 空间 。 空 内 列表 中 的 存储 块 的 顺序 
没有 确定 。 例 如 ， 这 个 列表 可 以 按 块 的 大 小 排序 ， 因 此 可 以 支持 

best-fit 放 置 策略 。 


Wi 图 7-17 给 出 堆 区 的 一 个 部 分 ， 其 中 包含 三 个 相 邻 的 存储 块 A、 
1C。B 块 的 大 小 为 100， 它 刚刚 被 回收 并 回 到 了 空闲 列表 中 。 因 为 我 
们 知道 B 的 开始 位 置 〈 左 端 ， 也 就 知道 了 紧 靠 在 B 的 左边 的 存储 块 的 
末端 ， 在 这 个 例子 中 就 是 A。A 右 端的 free/used 位 当前 为 0， 因 此 A 也 是 
空闲 的 。 于 是 我 们 可 以 将 A 和 B 接 合成 一 个 300 字 节 的 存储 块 。 











存储 块 C 








存储 块 4 


图 7-17 堆 的 片段 和 一 个 双重 链接 的 空 闪 列表 


有 可 能 出 现 这 样 的 情况 ， 即 紧 靠 在 B 的 右 端 的 存储 块 C 也 是 空闲 

的 。 在 这 种 情况 下 ， 我 们 可 以 把 A、B 和 C 全 部 合并 起 来 。 请 注意 ， 如 果 
我 们 总 是 尽 可 能 地 把 存储 块 接 合 起 来 ， 那 么 就 不 会 有 两 个 连续 的 空闲 
块 。 因 此 我 们 总 是 只 需要 查看 与 正 被 回收 的 块 相 邻 的 两 个 块 。 在 当前 例 
子 中 ， 我 们 按照 下 面 的 步 驰 找到 C 的 开始 位 置 。 我 们 从 已 知 的 B 的 左 端 
开始 ， 在 B 的 左边 界 标记 中 知道 B 块 的 总 字 节 数 为 100 字 节 。 根 据 这 个 信 
息 ， 我 们 可 以 找到 B 的 右 端 和 紧 靠 在 B 右 边 的 存储 块 的 起 始 位 置 。 在 该 
点 上 ， 我 们 检查 C 的 free/used 位 ， 发 现 其 值 为 1， 表 明 C 正 在 被 使 用 ， 
此 C 不 可 以 被 接合 。 


因为 我 们 必须 接合 A 和 B， 所 以 需要 从 空 几 列表 中 删除 它们 中 的 一 
个 。 空 用 列表 的 双重 链接 结构 使 得 我 们 可 以 找到 A 和 B 中 的 前 驱 和 后 继 
结 点 。 请 注意 ， 不 应 该 假定 在 物理 上 相 邻 的 A 和 B 在 空闲 列表 中 也 相 

















邻 。 知 道 了 A 和 B 在 空 几 列表 中 的 前 驱 和 后 继 的 存储 块 ， 就 可 以 操作 列 
表 中 的 指针 并 将 A 和 B 丛 换 为 一 个 接合 后 的 存储 块 。 


如 果 上 自动 垃圾 回收 过 程 将 所 有 已 分 配 的 存储 块 移 动 到 一 段 连续 的 存 
储 中 ， 它 同时 还 可 以 消除 所 有 的 碎片 。 在 7.6.4 贡 中 将 更 详细 地 讨论 坛 圾 
回收 机 制 和 存储 管理 之 间 的 相互 影响 。 





7.4.5 人 工 回收 请 求 


我 们 在 本 节 的 最 后 讨论 人 工 存储 管理 。 此 时 ， 程 序 员 必须 像 在 C 和 
C++ 语言 中 那样 显 式 地 安排 数据 的 回收 。 在 理想 情况 下 ， 任 何不 会 再 被 
访问 的 存储 都 应 该 删除 。 反 过 来 ， 任 何 可 能 还 会 被 引用 的 空间 都 不 能 删 
除 。 遗 憾 的 是 ， 这 两 个 性 质 都 很 难保 证 。 除 了 考 夸 人 工 回收 的 困难 之 处 
以 外 ， 我 们 还 将 描述 一 些 被 程序 员 用 于 处 理 这 些 难点 的 技术 。 


人 工 回收 带 来 的 问题 
人 工 存储 管理 很 容易 出 错 。 常 见 的 错误 有 两 种 形式 : 一 直 未 能 删除 
不 能 被 引用 的 数据 ， 这 称 为 内 存 汇 漏 《memory-leak) 错误 ;引用 已 经 


被 删除 的 数据 ， 这 称 为 悬空 指针 引用 〈dangling-pointer-dereference) 错 
误 ， 








程序 员 不 能 保证 一 个 程序 是 人 否 永远 不 会 在 将 来 引用 某 块 存储 ， 因 此 
第 一 个 第 见 的 错误 是 没有 删除 那些 不 会 被 再 次 引用 的 数据 。 请 注意 ， 尽 
管内 存 泄 漏 可 能 由 于 占用 的 存储 增多 而 降低 程序 运行 的 速度 ， 但 是 只 要 
机 需 没 有 用 完全 部 存储 ， 它 们 融 不 会 影响 程序 的 正确 性 。 很 多 程序 可 以 
容忍 内 存 汇 漏 ， 当 泄漏 比较 缓慢 时 尤其 如 此 。 人 然而 ， 对 于 长 期 运行 的 程 
序 ， 特 别 是 像 操 作 系统 和 服务 器 代码 这 样 不 间断 运行 的 程序 ， 保 证 它们 
没有 内 存 泄 漏 是 非常 关键 的 。 


目 动 垃 圾 回收 通过 回收 所 有 的 垃圾 而 消除 了 内 存 泄漏 问题 。 即 使 使 
用 目 动 垃圾 回收 机 制 ， 程 序 可 能 仍然 耗费 了 过 多 的 内 存 。 有 时 尽管 在 东 
处 还 存在 着 对 某 个 对 象 的 引用 ， 但 程序 员 可 能 已 经 知道 该 对 象 不 会 再 被 
引用 。 在 那 种 情况 下 ， 程 序 员 可 以 主动 地 删除 指向 那些 不 会 再 被 引用 的 
对 象 的 引用 ， 使 得 这 些 对 象 可 以 被 自动 回收 。 























一 个 工具 实例 : Purify 





Rational 的 Purify 是 帮助 程序 员 寻 找 程序 中 的 内 存 访 问 错误 和 内 存 
泄漏 的 最 常用 的 商业 工具 之 一 。 Purify 对 一 进 制 代码 进行 插 罕 ， 加 入 
在 程序 运行 时 检查 程序 错误 的 附加 指令 。 它 维护 了 一 个 存储 的 映像 
图 ， 指 明 所 有 空 : 闲 的 和 已 用 的 空 z 间 的 分 布 。 每 个 已 分 配 空间 的 对 象 都 
被 一 段 额 外 空间 包围 ， 对 未 分 配 空间 的 访问 ， 或 对 数据 对 象 之 间 的 间 
隐 空 间 的 访问 都 被 标记 为 错误 。 通 过 这 种 方法 可 以 找到 一 些 悬 空 指针 
引用 ， 但 是 当 访 内存 已 经 被 重新 分 配 且 该 位 置 上 已 经 存在 一 个 有 效 对 
象 时 ， 这 种 方法 就 无 能 为 力 了 。 这 种 方法 还 可 以 找到 一 些 越 界 的 数组 
访问 ， 前 提 是 它们 恰巧 落 在 这 些 对 象 之 后 ， 由 Purify 插 入 的 空间 中 。 


Purify 也 可 以 在 程序 运行 结束 时 发 现 内 存 泄漏 。 它 搜索 所 有 的 已 
分 配 的 对 象 中 的 内 容 ， 找 出 所 有 可 能 的 指针 值 。 任 何 没 有 指针 指向 的 
对 象 都 是 一 块 泄漏 的 存储 块 。Purify 可 以 报告 泄漏 内 存 的 大 小 和 泄漏 
对 象 的 位 置 。 我 们 可 以 将 Purify 和 一 个 “保守 的 垃圾 回收 器 > 相 比 较 ， 

后 者 将 在 7.8.3 节 中 讨论 。 
































过 度 热 衷 于 删除 对 象 可 能 引起 比 内 存 泄漏 更 严重 的 问题 。 第 二 个 般 

见 的 错误 是 删除 了 某 个 存储 空间 ， 然 后 又 试图 去 引用 这 个 已 回收 衬 间 中 
的 数据 。 指 疝 已 回收 空间 的 指针 称 为 悬空 指针 (dangling pointer) 。 
且 这 个 已 释放 的 空间 被 重新 分 配给 另 一 个 变量 ， 通 过 该 悬空 指 针 进 行 的 
任何 读 、 写 或 回收 操作 都 可 能 产生 看 起 来 不 可 捉摸 的 结果 。 我 们 把 诸如 
读 、 写 、 回 收 等 沿 着 一 个 指针 试图 使 用 该 指针 所 指 对 象 的 所 有 操作 称 为 
对 这 个 指针 的 “ 解 引 用 ” (dereferencing) 。 


注意 ， 通过 一 个 悬空 指针 读 取 数据 可 能 会 返回 不 确定 的 值 。 通 过 一 
虽 针 进 行 写 操作 则 可 能 不 确定 地 改变 新 变量 的 值 。 回 收 一 个 悬空 
的 人 全 x 间 意味 着 这 个 新 变量 的 存储 空间 可 能 被 分 配给 另 一 个 变 
。 新 旧 变 量 上 的 动作 可 能 会 相互 冲突 。 


和 内 存 泄漏 不 一 样 ， 在 释放 的 空间 被 重新 分 配 之 后 再 对 相应 的 芒 
指针 进行 解 引用 总 是 会 带 来 难以 调试 的 程序 错误 。 因 而 ， 当 程序 员 不 能 
确定 一 个 变量 是 人 否 还 会 被 引用 时 ， 他 们 更 倾 问 于 不 回收 该 变量 。 


























男 一 个 相关 的 编程 错误 形式 是 访问 非法 地 址 。 这 种 错误 的 常见 例子 
包括 对 空 指针 的 解 引用 和 访问 一 个 数组 界限 之 外 的 元 素 。 探 测 出 这 种 错 
误 要 好 过 任 由 程序 产生 错误 结果 。 实 际 上 ， 很 多 安全 危害 就 是 利用 了 这 
种 类 型 的 程序 错误 。 其 中 ， 某 个 程序 输入 会 导致 意 想 不 到 的 数据 访问 ， 
使 得 一 个 黑客 取得 这 个 程序 和 机 器 的 控制 权 。 解 决 办 法 之 一 是 让 编译 絮 
在 每 次 访问 中 插入 检查 代码 ， 以 保证 该 次 访问 在 数组 界限 之 内 。 一 些 编 
译 缉 的 优化 器 可 以 发 现 并 删除 那些 不 必要 的 检查 代码 ， 因为 这 些 优化 器 
能 够 推导 出 相应 的 访问 必然 在 区 间 之 内 。 


编程 规范 和 工具 


现在 我 们 给 出 几 个 最 流行 的 编程 规范 和 工具 ， 开 发 它们 的 目的 是 帮 
助 程 序 员 来 应 对 的 存储 管理 的 复杂 性 : 


。 当 一 个 对 象 的 生命 周期 能 够 被 静态 推导 出 来 时 ， 对 象 所 有 者 
Cobject ownership〉 的 概念 是 很 有 用 的 。 它 的 基本 思想 是 在 任何 时 
候 都 给 每 个 对 象 关联 上 一 个 所 有 者 (owner) 。 这 个 所 有 者 是 指 问 
该 对 象 的 一 个 指针 ， 通 常 属于 某 个 函数 调用 。 所 有 者 (也 就 是 这 个 
函数 ) 负责 删除 这 个 对 象 或 者 把 这 个 对 象 传递 给 另 一 个 所 有 者 。 可 
能 会 有 其 他 的 指针 也 指 癌 同一 个 对 象 ， 但 是 这 些 指针 不 代表 拥有 关 
系 。 这 些 指针 可 在 任何 时 刻 被 覆盖 ， 但 是 绝对 不 应 该 通过 它们 进行 
删除 操作 。 这 个 规范 可 以 消除 内 存 油 漏 ， 同 时 也 可 以 避免 将 同一 对 
ee St ie 
能 治 着 一 个 不 代表 拥有 关系 的 指针 访问 一 个 已 经 被 删除 的 对 象 。 
Dr 要 动态 确定 时 ， 引 用 计数 (reference 
counting) 会 有 所 帮助 。 它 的 基本 思想 是 给 每 个 动态 分 配 的 对 象 附 
一 个 计数 。 在 指 同 这 个 对 象 的 引用 被 创建 时 ， 我 们 将 此 对 象 的 引 
用 计数 加 一 ;， 当 一 个 引用 被 删除 时 ， 我 们 将 此 引用 计数 减 一 。 当 计 
数 变 成 0 时 ， 这 个 对 象 就 不 会 再 被 引用 ， 因 此 可 以 被 删除 。 然 而 ， 
这 个 技术 不 能 发 现 无 用 的 循环 数据 结构 ， 其 中 的 一 组 对 象 不 能 再 被 
访问 ， 但 是 因为 它们 之 间 互 相 引 用 ， 导 致 它们 的 引用 计数 不 为 0。 
在 例子 7.11 中 可 以 看 到 这 个 问题 的 一 个 示例 。 引 用 计数 技术 确实 可 
以 根除 所 有 的 悬空 指针 引用 ， 因 为 不 存在 指向 已 删除 对 象 的 引用 。 
因为 引用 计数 在 存储 一 个 指针 的 每 次 运算 上 增加 了 额外 开销 ， 因 此 
引用 计数 的 运行 时 刻 代 价 很 大 。 
对 于 其 生命 周期 局 限于 计算 过 程 中 的 某 个 特定 阶段 的 一 组 对 象 ， 可 
以 使 用 基于 区 域 的 分 配 (region-based allocation ) 方法 。 当 被 创建 



































的 对 象 只 在 一 个 计算 过 程 的 某 个 步骤 中 使 用 时 ， 我 们 可 以 把 这 些 对 
象 分 配 在 同一 个 区 域 中 。 一 旦 这 个 计算 步骤 完成 ， 我 们 融 删 除 整 个 
区 域 。 基 于 区 域 的 分 配方 法 有 一 定 的 局 限 性 。 然 而 当 可 以 使 用 它 
时 ， 它 义 非 常 高 效 。 因 为 该 技术 以 成 批 的 方式 一 次 性 删除 区 域 中 的 
所 有 对 象 ， 而 不 是 每 次 回收 一 个 对 象 。 











7.4.6 7.4 节 的 练习 


练习 7.4.1: 假设 堆 区 从 0 地 址 开始 编 址 ， 由 几 个 存储 块 组 成 。 按 昭 
地 址 顺序 ， 这 些 存储 块 的 大 小 分 别 是 80，30，60，50，70，20，40 个 字 
节 。 当 我 们 在 一 个 存储 块 中 放 入 一 个 对 象 时 ， 如 果 该 块 中 的 剩余 空间 仍 
然 足 以 形成 一 个 较 小 的 块 ， 我 们 就 将 此 对 象 放置 在 块 的 高 端 (这 样 可 以 
比较 容易 地 把 较 小 的 块 保 存在 空闲 空间 的 链表 中 ) 。 然 而 ， 我 们 不 能 使 
用 小 于 8 个 字 节 的 存储 块 ， 因 此 如 果 一 个 对 象 和 被 选中 的 存储 块 差不多 
大 ， 我 们 就 把 整个 块 分 配给 它 ， 并 将 这 个 对 象 放置 在 这 个 块 的 低 端 。 如 
果 我 们 按 顺 序 为 大 小 分 别 为 32、64、48、16 的 对 象 申请 空间 ， 在 满足 了 
这 些 请 求 之 后 的 空闲 空间 列表 是 什么 样子 的 ? 假设 选择 存储 块 的 方法 


XE : 








1) First-fit 


2) Best-fit 


7.5 ”垃圾 回收 概述 


不 能 被 引用 的 数据 通常 称 为 垃圾 (garbage) 。 很 多 噩 级 程序 设计 语 
言 提 供 了 用 以 回收 不 可 达 数 据 的 自动 垃圾 回收 机 制 ， 从 而 解除 了 程序 员 
进行 手工 存储 管理 的 负担 。 垃 圾 回收 最 早出 现在 1958 年 的 Lisp 语 言 的 初 
次 实现 中 。 其 他 提供 垃圾 回收 机 制 的 主要 语言 包括 Java、Perl、ML、 
Modula-3、Prolog 和 Smalltalk。 


在 本 市 中 ， 我 们 将 介绍 多 个 和 垃圾 回收 相关 的 概念 。 对 象 “可 达 ” 这 
个 概念 是 很 直观 的 ， 但 是 我 们 仍 需要 精确 地 定义 ， 准 确 的 规则 将 在 7.5.2 
节 中 讨论 。 我 们 将 在 7.5.3 节 中 讨论 一 种 简单 但 是 有 缺陷 的 上 自动 世 圾 回收 
方法 : 引用 计数 。 它 基于 如 下 的 思想 : 一 旦 一 个 程序 失去 了 指向 一 个 对 
象 的 所 有 引用 ， 它 束 不 能 并 且 也 不 会 再 引用 该 对 象 的 存储 空间 。 


7.6 节 将 讨论 基于 跟踪 的 回收 器 。 它 包含 多 个 算法 ， 用 以 找 出 所 有 
仍然 有 用 的 对 象 ， 然 后 将 堆 区 中 所 有 的 其 他 存储 块 变 成 空闲 空间 。 

















7.5.1 垃圾 回收 器 的 设计 目标 





垃圾 回收 是 重新 收回 那些 存放 了 不 能 再 被 程序 访问 的 对 象 的 存储 
块 。 我 们 假定 这 些 对 象 的 类 型 可 以 由 垃圾 回收 顷 在 运行 时 刻 确定 。 基 于 
这 个 类 型 信息 ， 我 们 可 以 知道 该 对 象 有 多 大 ， 以 及 该 对 象 的 哪些 分 量 包 
含 指 癌 其 他 对 象 的 引用 指针) 。 我 们 还 假定 对 对 象 的 引用 总 是 指 癌 该 
对 象 的 起 始 位 置 ， 而 不 会 指 回 该 对 象 中 间 的 位 置 。 因 此 ， 对 同一 个 对 象 
的 所 有 引用 具有 相同 的 值 ， 可 以 被 很 容易 地 识别 。 


我 们 把 一 个 用 户 程序 称 为 增 变 者 〈mnutator) ， 它 会 修改 堆 区 中 的 对 
象 集合 。 增 变 者 从 存储 管理 器 处 获取 空间 ， 创 建 对 象 ， 它 还 可 以 引入 和 
消除 对 已 有 对 象 的 引用 。 当 增 变 者 程序 不 能 “到 达 ” 有 茶 些 对 象 时 ， 这 些 对 
象 融 变 成 了 垃圾 。 在 7.5.2 贡 中 将 给 出 “到 达 ” 的 准确 定义 。 世 圾 回收 器 找 
到 这 些 不 可 达 对 象 ， 并 将 这 些 对 象 交 给 跟踪 空闲 空间 的 存储 管理 器 ， 收 
回 它们 所 占 的 空间 。 














一 个 基本 要 求 : 类 型 安全 


不 是 所 有 的 语言 都 适合 进行 自动 垃圾 回收 。 为 了 使 垃圾 回收 器 能 够 
工作 ， 它 必须 知道 任何 给 定 的 数据 元 素 或 一 个 数据 元 素 的 分 量 是 否 为 
《或 可 侣 被 用 作 ) 一 个 指 癌 某 块 已 分 配 存储 空间 的 指针 。 在 一 种 语言 
中 ， 如 果 任 何 数据 分 量 的 类 型 都 是 可 确定 的 ， 那 么 这 种 语言 就 称 为 类 型 
安全 (typesafe〉 的。 对 于 某 些 类 型 安全 的 语言 ， 比 如 ML， 我 们 可 以 在 
编译 时 刻 确定 数据 的 类 型 。 另 外 一 些 类 型 安全 语言 ， 比 如 Java， 其 类 型 
不 能 在 编译 时 刻 确定 ， 但 是 可 以 在 运行 时 刻 确定 。 后 者 称 为 动态 类 型 
(dynamically typed) 语言 。 如 果 一 个 语言 既 不 是 静态 类 型 安全 的 ， 也 
不 是 动态 类 型 安全 的 ， 它 就 被 称 为 不 安全 的 〈unsafe) 。 


类 型 不 安全 的 语言 不 适合 使 用 自动 坪 圾 回收 机 制 。 遗 憾 的 是 ， 有 些 
最 重要 语言 却 是 类 型 不 安全 的 ， 比 如 C 和 C++。 在 不 安全 语言 中 ， 存 储 
地 址 可 以 进行 任意 操作 : 可 以 将 任意 的 算术 运算 应 用 于 指针 ， 创 建 出 一 
个 新 的 指针 ， 并 且 任 何 整数 都 可 以 被 强制 转化 为 指针 。 因 此 ， 从 理论 上 
来 说 ， 一 个 程序 可 以 在 任何 时 候 引 用 内 存 中 的 任何 位 置 。 这 样 ， 没 有 哪 
个 内 存 位 置 可 以 被 认为 是 不 可 访问 的 ， 也 束 无 法 安全 地 收回 任何 存储 空 
间 。 


在 实践 中 ， 大 部 分 C 和 C++ 程 序 并 没有 随意 地 生成 指针 。 因 此 人 们 
开发 了 一 个 在 理论 上 不 正确 ， 但 是 实践 经 验 表 明 很 有 效 的 垃圾 回收 器 。 
我 们 将 在 7.8.3 节 中 讨论 用 于 C 和 C++ 语言 的 保守 的 垃圾 回收 技术 。 


能 度 


尽管 在 几 十 年 前 就 发 明了 垃圾 回收 机 制 ， 并 且 它 能 够 完全 防止 内 存 
泄漏 ， 但 是 垃圾 回收 的 代价 是 如 此 高 晶 ， 所 以 至 今 没 有 被 很 多 主流 的 程 
序 设计 语言 使 用 。 在 多 年 的 研究 中 ， 很 多 不 同 的 回收 方法 被 提出 来 ， 但 
是 还 没有 一 种 无 可 争议 的 最 好 的 垃圾 回收 算法 。 在 讨论 这 些 方法 之 前 ， 
我 们 首先 列举 一 些 在 设计 垃圾 回收 器 时 必须 考虑 的 性 能 度量 标准 。 

。 总 体 运行 时 间 。 垃 圾 回收 的 速度 可 能 会 很 慢 。 使 它 不 会 显著 增加 一 

个 应 用 程序 的 总 运行 时 间 是 很 重要 的 。 因 为 垃圾 回收 器 必须 要 访问 

候 多 米 据 ， 它 的 性 能 很 大 程度 上 决定 于 它 能 否 充 分 利用 存 信子 


。 空 间 使 用 。 重 要 之 处 在 于 垃圾 回收 机 制 避免 了 内 存 碎片 ， 并 最 大 限 
度 地 利用 了 可 用 内 存 。 
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。 停顿 时 间 。 简 单 的 垃圾 回收 硕 有 一 个 众所周知 的 问题 ， 即 垃圾 回收 
过 程 会 在 没有 任何 预警 的 情况 下 突然 局 动 ， 导 致 程 序 〈 即 增 变 者 ) 
突然 长 时 间 停顿 。 因 此 ， 除 了 了 最 小 化 总 体 运 行 时 间 之 外 ， 人 们 还 希 
望 将 最 长 停顿 时 间 最 小 化 。 作 为 一 个 重要 的 特例 ， 实 时 应 用 要 求 东 
些 计算 在 一 个 时 间 界 限 内 完成 。 我 们 要么 在 执行 实时 任务 时 压制 住 
垃圾 回收 过 程 ， 要 么 限定 最 长 停顿 时 间 。 因 此 ， 垃 圾 回收 机 制 很 少 
在 实时 应 用 中 使 用 。 

程序 局 部 性 。 我 们 不 能 只 通过 一 个 垃圾 回收 费 的 运行 时 间 来 评价 它 
的 速度 。 垃 圾 回收 器 控制 了 数据 的 放置 ， 因 此 影响 了 增 变 者 程序 的 
数据 局 部 性 。 它 可 以 通过 释放 空间 并 复 用 该 空间 来 改善 增 变 者 程序 
的 时 间 局 部 性 ， 它 也 可 以 将 那些 一 起 使 用 的 数据 重新 放置 在 同一 个 
高 速 缓存 线 或 内 存 页 上 ， 从 而 改善 程序 的 空间 局 部 性 。 


这 些 设计 目标 中 的 茶 些 目标 可 能 互相 冲突 ， 设 计 者 必须 在 认真 考虑 
程序 的 典型 行为 之 后 作出 权衡 。 不 同 特性 的 对 象 可 能 适 会 使 用 不 同 的 处 
理 方 式 ， 这 就 要 求 玄 圾 回收 喜 使 用 不 同 的 技术 来 处 理 不 同类 型 的 对 象 。 


例如 ， 已 分 配 的 对 象 数量 中 小 对 象 的 数量 很 大 比例 ， 那 么 对 小 对 象 
的 分 配 不 能 产生 大 的 开销 。 为 一 方面 ， 考 虑 一 下 对 可 达 对 象 进 行 重 定 位 
的 垃圾 回收 器 。 在 处 理 大 对 象 时 重新 定位 是 非常 昂贵 的 ， 但 在 处 理 小 对 
象 时 代价 就 比较 小 。 


考 碟 另 一 个 例子 。 一 般 来 说 ， 在 基于 跟踪 的 回收 硕 中 ， 我 们 等 待 垃 
圾 回收 的 时 间 越 长 ， 可 回收 对 象 的 比例 就 越 大 。 原 因 在 于 很 多 对 象 常 
常 * 英 年 早 进 ?"， 因 此 如 果 我 们 等 一 段 时 间 ， 很 多 新 分 配 的 对 象 束 会 变 成 
不 可 达 的 。 这 样 的 回收 顷 平 均 花 在 每 个 被 回收 对 象 上 的 开销 就 会 变 小 。 
另 一 方面 ， 降 低 回 收 频 率 会 增加 程序 的 内 存 使 用 要 求 ， 降 低 数 据 局 部 
性 ， 并 增加 停顿 时 间 。 


相 比 之 下 ， 一 个 使 用 引用 计数 的 回收 需 给 增 变 者 的 每 次 运算 引入 一 
个 常量 开销 ， 从 而 明显 地 减 慢 程序 的 整体 运行 速度 。 但 是 邦 一 方面 ， 引 
用 计数 技术 不 会 产生 长 时 间 的 俘 顿 ， 并 且 能 够 有 效 地 利用 内 存 ， 因 为 它 
WO 
义 ) 。 


语言 的 设计 同样 会 影响 内 存 使 用 的 特性 。 有 些 语言 提倡 的 程序 设计 
风格 会 产生 很 多 垃圾 。 比 如 ， 函 数 式 (或 者 儿 乎 函数 式 ) 的 程序 设计 语 
言 为 了 避免 改变 已 存在 的 对 象 ， 会 创建 出 更 多 的 对 象 。 在 Java 中 ， 除 了 


















































整 型 和 引用 这 样 的 基本 类 型 ， 所 有 的 对 象 都 被 分 配 在 堆 区 而 不 是 栈 区 。 
即使 这 些 对 象 的 生命 周期 被 限制 在 一 次 函数 调用 的 生命 周期 内 ， 它 们 仍 
然 被 分 到 堆 区 中 。 这 种 设计 使 得 程序 员 不 需要 关注 变量 的 生命 周期 ， 但 
是 其 代价 是 产生 更 多 的 垃圾 。 已 经 有 一 些 编译 器 优化 技术 可 以 分 析 变 量 
的 生命 周期 ， 并 尽 可 能 地 将 它们 分 配 到 栈 区 。 





7.5.2 ”可 达 性 





我 们 把 所 有 不 需要 对 任何 指针 解 引 用 就 可 以 被 程序 直接 访问 的 数据 
称 为 根 集 (root set) 。 例 如 ， 在 Java 中 ， 一 个 程序 的 根 集 由 所 有 的 静态 
字段 成 员 和 栈 中 的 所 有 变量 组 成 。 显 然 ， 程 序 可 以 在 任何 时 候 访问 根 集 
中 的 任何 成 员 。 递 归 地 ， 对 于 任意 一 个 对 象 ， 如 果 指 同 它 的 一 个 引用 被 
i 
可 


当 程 序 被 编译 器 优化 之 后 ， 可 达 性 问题 会 变 得 更 加 复杂 。 首 先 ， 编 
译 需 可 能 会 把 引用 变量 放 在 寄存 器 中 。 这 些 引 用 也 必须 被 看 做 是 根 集 的 
一 部 分 。 其 次 ， 尽 管 在 一 个 类 型 安全 语言 中 ， 程 序 员 不 能 直接 操作 内 存 
地 址 ， 但 是 编译 器 种 常会 为 了 提高 代码 速度 而 这 么 做 。 因 此 ， 纺 译 得 到 
的 代码 中 的 寄存 露 可 能 会 指 同一 个 对 象 或 数组 的 中 间 位 置 ， 或 者 程序 可 
能 把 一 个 偏 移 量 加 到 这 些 寄存 器 中 的 值 上 ， 计 算得 到 一 个 合法 地 址 。 为 
了 使 得 垃圾 回收 絮 能 够 找到 正确 的 根 集 ， 优 化 编译 占 可 以 做 如 下 的 处 
理 ; 


。 编译 器 可 以 限制 垃圾 回收 机 制 只 能 在 程序 中 的 共 些 代码 点 上 被 激 
活 。 在 这 些 点 上 没有 “隐藏 >” 的 引用 。 

。 编译 占 可 以 写 出 一 些 信息 供 垃圾 回收 如 恢复 所 有 的 引用 。 比 如 ， 指 
出 哪些 寄存 器 中 包含 了 引用 ， 或 者 如 何 根据 给 定 的 茶 个 对 象 的 内 部 
地 址 来 计算 该 对 象 的 基地 址 。 

。 编译 器 可 以 确保 当 垃 圾 回收 需 被 激活 时 每 个 可 达 对 象 都 有 一 个 引用 
指向 它 的 基地 址 。 


可 达 对 象 的 集合 随 看 程序 的 执行 而 变化 。 当 新 对 象 被 创建 时 该 集合 
会 增长 ， 当 茶 些 对 象 变 得 不 可 达 时 该 集合 就 缩小 。 重 要 的 是 记 住 一 旦 某 
个 对 象 变 得 不 可 达 ， 它 就 不 可 能 再 次 变 得 可 达 。 下 面 是 一 个 增 变 者 程序 
改变 可 达 对 象 集合 的 四 种 基本 操作 : 
































。 对 象 分 配 。 这 些 操作 由 存储 管理 器 完成 。 它 返回 一 个 指向 新 创建 的 
存储 区 域 的 引用 。 这 个 操作 向 可 达 对 象 集中 添加 成 员 。 
。 参 数 传递 和 返回 值 。 对 象 引用 从 实在 输入 参数 传递 到 相应 的 形式 参 
数 ， 也 可 以 从 返回 结 果 传 加 给 调用 者 。 这 些 引用 指向 的 对 象 仍然 是 
可 达 的 。 
引用 赋值 。 对 于 引用 u 和 v， 形 如 u=v 的 赋值 语句 有 两 个 效果 。 首 
先 ，u 现 在 是 v 所 指 对 象 的 一 个 引用 。 只 要 u 是 可 达 的 ， 那 么 它 指向 
的 对 象 当 然 也 是 可 达 的 。 其 次 ，u 中 原来 的 引用 丢失 了 。 如 果 这 个 
引用 是 指向 某 一 可 达 对 象 的 最 后 一 个 引用 ， 那 么 那个 对 象 就 变 成 不 
可 达 的 。 当 某 个 对 象 变 得 不 可 达 时 ， 所 有 只 能 通过 这 个 对 象 中 的 引 
用 到 达 的 对 象 都 会 变 成 不 可 达 的 。 
过 程 返 回 。 当 一 个 过 程 退 出 时 ， 保 存 其 局 部 变量 的 活动 记录 将 被 弹 
出 栈 。 如 果 这 个 活动 记录 中 保存 了 某 个 对 象 的 唯一 引用 ， 那 个 对 象 
就 变 得 不 可 达 。 同 样 ， 如 果 这 个 刚刚 变 得 不 可 达 的 对 象 保存 了 指向 
其 他 对 象 的 唯一 引用 ， 那 么 那些 对 象 也 将 变 得 不 可 达 ， 以 此 类 推 。 


总 而 言 之 ， 新 的 对 象 通过 对 象 分 配 和 被 引入 。 参 数 传递 和 赋值 可 以 传 
递 可 达 性 ， 赋 值 和 过 程 结束 可 能 结束 对 象 的 可 达 性 。 当 一 个 对 象 变 得 不 
可 达 时 ， 可 能 会 导致 更 多 的 对 象 变 得 不 可 达 。 




















栈 对 象 的 残存 问题 


当 一 个 过 程 被 调用 时 ， 一 个 局 部 变量 v 的 对 象 被 分 配 在 栈 中 。 可 
能 会 有 一 些 指 问 v 的 指针 被 放置 在 非 局 部 变量 中 。 这 些 指针 将 在 这 个 
过 程 返回 之 后 继续 存在 ， 但 是 存放 v 的 空间 消失 了 ， 从 而 产生 了 一 个 











悬空 指针 的 情况 。 我 们 是 否 应 该 象 C 所 作 的 那样 将 象 v 这 样 的 局 部 变 
量 分 配 在 栈 中 呢 ? 答案 是 很 多 语言 的 语义 要 求 局 部 变量 在 它们 的 过 程 
返回 后 不 再 存在 。 保 留 一 个 指向 这 样 的 变量 的 引用 是 一 个 编程 错误 ， 
不 会 要 求 编译 器 去 改正 程序 中 的 这 个 错误 。 


























有 两 种 寻找 不 可 达 对 象 的 基本 方法 。 我 们 可 以 捕获 可 达 对 象 变 得 不 
可 达 的 转变 时 刻 ， 也 可 以 周期 性 地 定位 出 所 有 可 达 对 象 ， 然 后 推出 所 有 
其 他 对 象 都 是 不 可 达 的 。7.4.5 节 中 介绍 的 引用 计数 技术 是 一 种 车 名 的 近 
似 实现 第 一 种 方法 的 技术 。 我 们 在 增 变 者 执行 可 能 改变 可 达 对 象 集合 的 





动作 时 ， 维 护 了 指 同 各 个 对 象 的 引用 的 计数 。 当 计数 器 变 成 0 时 ， 相 应 
的 对 象 变 得 不 可 达 。 我 们 将 在 7.5.3 节 中 更 详细 地 讨论 这 个 方法 。 


第 二 种 方法 传递 地 跟踪 所 有 的 引用 ， 从 而 计算 可 达 性 。 一 个 基于 跟 
踪 的 垃圾 回收 器 首先 为 根 集中 的 所 有 对 象 加 上 “可 达 的 ”标号 ， 然 后 重复 
地 检查 可 达 对 象 中 的 所 有 引用 ， 找 到 更 多 的 可 达 对 象 ， 并 为 它们 加 上 同 
样 的 标号 。 这 个 方法 必须 首先 跟踪 所 有 的 引用 ， 然 后 才能 决定 哪些 对 象 
是 不 可 达 的 。 但 是 一 旦 计算 得 到 可 达 集 合 ， 它 就 可 以 立刻 找到 很 多 不 可 
达 对 象 ， 并 同时 确定 大 量 的 空闲 存储 空间 。 因 为 所 有 的 引用 都 必须 在 同 
一 时 刻 进 行 分 析 ， 所 以 我 们 还 可 以 选择 将 可 达 对 象 重新 定位 ， 从 而 减少 
雁 片 。 有 很 多 种 不 同 的 基于 跟踪 的 算法 ， 我 们 将 在 7.6 节 和 7.7.1 节 中 讨 
论 这 些 可 选 算法 。 




















7.5.3 ”引用 计数 坪 圾 回收 旨 


现在 ， 我 们 考虑 一 个 简单 但 有 缺 陷 的 基于 引用 计数 的 垃圾 回收 器 。 
当 一 个 对 象 从 可 达 转 变 为 不 可 达 的 时 候 ， 该 回收 器 就 可 以 将 该 对 象 确认 
为 垃圾 ; 当 一 个 对 象 的 引用 计数 为 0 时 ， 该 对 象 就 会 被 删除 。 使 用 引用 
计数 的 垃圾 回收 器 时 ， 每 个 对 象 必 须 有 一 个 用 于 存放 引用 计数 的 字段 。 
引用 计数 可 以 按照 下 面 的 方法 进行 维护 : 


1) 对 象 分 配 。 新 对 象 的 引用 计数 被 设置 为 1。 
2) 参数 传递 。 被 传递 给 一 个 过 程 的 每 个 对 象 的 引用 计数 加 一 。 


3) 引用 赋值 。 如 果 u 和 v 部 是 引用 ， 对 于 语句 u=v，v 指 疝 的 对 象 的 
引用 计数 加 1，u 本 来 指 癌 的 原 对 象 的 引用 计数 减 1。 

4) 过 程 返 回 。 当 一 个 过 程 退出 时 ， 该 过 程 活动 记录 的 局 部 变量 中 
所 指向 的 对 象 的 引用 数 必须 减 一 。 如 果 多 个 局 部 变量 存放 了 指向 同一 对 
象 的 引用 ， 那 么 对 每 个 这 样 的 引用 ， 该 对 象 的 引用 计数 都 要 减 1。 


5) 可 达 性 的 传递 丢失 。 当 一 个 对 象 的 引用 计数 变 成 0 时 ， 我 们 必须 
将 该 对 象 中 的 各 个 引用 所 指 回 的 每 个 对 象 的 引用 计数 减 1。 


引用 计数 有 两 个 主要 的 缺点 : 它 不 能 回收 不 可 达 的 循环 数据 结构 ， 











并 且 它 的 开销 较 大 。 循 环 数 据 结 构 的 出 现 都 是 有 理由 的 :数据 结构 第 第 
会 指 回 到 它们 的 父 结 点 ， 也 可 能 相互 指 癌 对 方 ， 从 而 形成 交叉 引用 。 


图 7-18 给 出 了 三 个 对 象 以 及 它们 之 间 的 引用 ， 但 是 没有 来 目 其 

部 分 的 引用 。 如 果 这 些 对 象 都 不 是 根 集 的 成 员 ， 那 么 它们 都 是 垃圾 ， 

但 是 它们 的 引用 计数 都 大 于 0。 如 果 我 们 在 垃圾 回收 中 使 用 引用 计数 技 

术 ， 这 个 情况 就 等 同 于 一 次 内 存 泄漏 ， 因 为 这 种 垃圾 以 及 任何 类 似 的 结 
构 永 远 不 会 被 回收 。 








没有 来 自 
、、 ”外 部 的 指针 





图 7-18 一 个 不 可 达 的 循环 数据 结构 


引用 计数 的 开销 比较 大 ， 因 为 每 一 次 引用 赋值 ， 以 及 在 每 个 过 程 的 
入 口 和 出 口 处 ， 都 会 增加 一 个 额外 运算 。 这 个 开销 和 程序 中 的 计算 量 成 
正比 关系 ， 而 不 仅仅 和 系统 中 的 对 象 数 目 相 关 。 需 要 特别 考虑 的 是 对 一 
个 程序 的 根 集中 的 引用 的 更 新 。 局 部 栈 访问 会 引起 引用 计数 的 更 新 ， 为 
了 消除 因 这 种 更 新 而 引起 的 时 间 开 销 ， 人 们 提出 了 延期 引用 计数 的 概 
念 。 也 就 是 说 ， 引 用 计数 不 包括 来 自 程 序 根 集 的 引用 。 除 非 扫 搬 整 个 根 
集 仍 没 有 找到 指向 茶 一 对 象 的 引用 ， 否 则 这 个 对 象 不 会 被 当 作 垃 圾 。 


男 一 方面 ， 引 用 计数 的 优势 在 于 垃圾 回收 是 以 增 量 方式 完成 的 。 尺 
党 总 的 开销 可 能 很 大 ， 但 这 些 运算 分 布 在 增 变 者 的 整个 计算 过 程 中 。 尽 
管 删除 一 个 引用 可 能 致使 大 量 对 象 变 得 不 可 达 ， 我 们 可 以 很 容易 地 延期 
执行 递归 地 修改 引用 计数 的 运算 ， 并 在 不 同 的 时 间 点 上 逐步 完成 修改 。 
因此 ， 当 应 用 必须 满足 菏 个 时 间 期 限时 ， 或 者 对 于 不 能 接受 长 时 间 突 然 
停顿 的 交互 式 系统 而 言 ， 引 用 计数 是 一 种 特别 有 吸引 力 的 算法 。 这 个 方 
法 的 为 一 种 优势 是 垃圾 被 及 时 回收 ， 从 而 保持 了 较 低 的 空间 使 用 旱 。 











7.5.4 7.5 节 的 练习 


练习 7.5.1: 当下 列 事件 发 生 时 ， 图 7-19 中 的 对 象 的 引用 计数 会 发 生 
哪些 改变 ? 





图 7-19 ”一 个 对 象 网 络 


1) 从 A 指 器 B 的 指针 被 删除 。 


2) 从 X 指 同 A 的 指针 被 删除 。 
3) 结 点 C 被 删除 。 


练习 7.5.2: 当 图 7-20 中 的 从 A 到 D 的 指针 被 删除 时 ， 引 用 计数 会 发 
生 什 么 样 的 改变 ? 





7.6 ”基于 跟踪 的 回收 的 介绍 


基于 跟踪 的 回收 费 并 不 在 垃圾 产生 的 时 候 就 进行 回收 ， 而 是 会 周期 
性 地 运行 ， 寻 找 不 可 达 对 象 并 收回 它们 的 空间 。 通 常 的 做 法 是 在 空 几 空 
间 被 耗 尽 或 者 空闲 空间 数量 低 于 某 个 国 值 时 局 动 垃圾 回收 顷 。 


在 本 节 中 ， 我 们 首先 介绍 最 简单 的 “标记 -清扫 式 " 垃 圾 回收 算法 。 
然后 我 们 将 通过 存储 块 可 能 具有 的 四 种 状态 来 描述 多 个 基于 跟踪 的 算 
法 。 这 一 节 中 还 包含 了 一 些 对 基本 算法 的 改进 ， 包 括 那 些 将 对 象 重 定位 
加 入 到 垃圾 回收 功能 中 的 算法 。 




















7.6.1 基本 的 标记 -清扫 式 回 收 器 





标记 -清扫 式 (mark-and-sweep) 垃圾 回收 算法 是 一 种 直接 的 全 面 停 
顿 的 算法 。 它 们 找 出 所 有 不 可 达 的 对 象 ， 并 将 它们 放 入 空闲 空间 列表 。 
算法 7.12 在 一 开始 的 跟踪 步骤 中 访问 并 < 标记 ”所 有 的 可 达 对 象 ， 然 后 “ 清 
扫 ” 整 个 堆 区 并 释放 不 可 达 对 象 。 在 介绍 了 基于 跟踪 的 算法 的 一 个 一 般 
性 框架 之 后 ， 我 们 将 考虑 算法 7.14， 它 是 算法 7.12 的 一 个 优化 。 算 法 
7.14 使 用 一 个 附加 的 列表 来 保存 所 有 已 分 配对 象 ， 使 得 它 对 每 个 可 达 对 
象 只 访问 一 次 。 
标记 -清扫 式 垃圾 回收 。 

输入 : 一 个 由 对 象 组 成 的 根 集 ， 一 个 堆 和 一 个 被 称 为 Free 的 包含 了 


堆 中 所 有 未 分 配 存 储 块 的 空闲 空间 列表 (free list) 。 和 7.4.4 节 中 一 样 ， 
人 




















和 输出: 在 删除 了 所 有 垃圾 之 后 的 经 过 修改 的 Free 列 表 。 


方法 : 在 图 7-21 中 显示 的 算法 使 用 了 几 个 简单 的 数据 结构 。 列 表 
Free 保 存 了 已 知 的 空 亲 对 象 。 一 个 名 为 Unscanned 的 列表 保存 了 我 们 已 
经 确定 可 达 的 对 象 ， 但 是 我 们 还 没有 考虑 这 些 对 象 的 后 继 对 象 的 可 达 











性 。 也 就 是 说 ， 我 们 还 没有 扫描 这 些 对 象 来 确定 通过 它们 能 够 到 达 哪 些 
对 象 。 列 表 Unscanned 最 初 为 裤 。 另 外 ， 每 个 对 象 包括 一 个 比特 ， 用 来 

间 明 该 对 象 是 否 可 达 《〈 即 reached 位 ) 。 在 算法 开始 之 前 ， 所 有 已 分 配对 
象 的 reached 位 都 被 设 定 为 0。 


/ 标记 阶段 */ 
/* 把 被 根 集 引 用 的 每 个 对 象 的 reached 位 设置 为 1， 并 把 它 加 入 
到 Unscanmed 列表 中 ;*/ 
while (Unscanned 0) { 
从 Unscanmed 列表 中 删除 基 个 对 象 o ; 
for (在 o 中 引用 的 每 个 对 象 o' ) { 
if (o' 尚未 被 访问 到 ， 即 它 的 reached 位 为 0) { 
将 o' 的 reached 位 设置 为 1; 
将 o' 放 到 Unscanmed 中 ; 


} 


} 
/* 清扫 阶段 */ 
Free = 61; 


for ( 堆 区 中 的 每 个 内 存 块 0) { 
这 (o 未 被 访问 到 ， 即 它 的 reached 位 为 0) 将 o 加 入 到 Free 中 ; 
else 将 0 的 reached 位 设置 为 0 ; 





图 7-21 一 个 标记 -清扫 式 垃 圾 回收 器 


在 图 7-21 的 第 (1) 行 ， 我 们 初始 化 Unscanned 列 表 ， 在 其 中 放 入 所 
有 被 根 集 引 用 的 对 象 。 同 时 这 些 对 象 的 reached 位 被 设置 为 1。 第 (2) 行 
到 第 (7) 行 是 一 个 循环 ， 在 此 循环 中 我 们 逐个 检查 每 个 已 经 被 放 入 
Unscanned 列 表 中 的 对 象 o。 


从 第 〈4) 行 到 第 〈7) 行 的 for 循 环 实现 了 对 对 象 o 的 扫描 。 我 们 检 
得 每 个 在 o 中 被 引用 的 对 象 0。 如 果 o0' 已 经 被 访问 过 《其 reached 位 为 
1) ， 那 么 就 不 需要 对 o' 做 任何 处 理 ， 它 要 么 已 经 在 之 前 被 扫描 过 ， 要 
么 已 经 在 Unscanned 列 表 中 等 待 扫描 。 然 而， 如 果 o' 还 没有 被 访问 到 ， 那 
么 我 们 需要 在 第 (6) 行将 它 的 reached 位 设置 为 1， 并 在 第 (7) 行 中 将 o 
' 加 入 到 Unscanned 列 表 中 。 图 7-22 说 明了 这 个 过 程 。 它 显示 了 一 个 种 有 
四 个 对 象 的 Unscanned 列 表 。 列 表 中 的 第 一 个 对 象 对 应 于 上 述 讨 论 中 的 
对 象 o。 邱 正在 被 扫描 。 虚 线 对 应 于 可 能 从 o 到 达 的 三 种 类 型 的 对 象 : 


1) 之 前 扫描 过 的 对 象 ， 它 不 需要 被 再 次 扫描 。 








2) 当前 在 Unscanned 列 表 中 的 对 象 。 
3) 一 个 可 达 的 数据 项 ， 但 是 之 前 它 被 认为 是 未 被 访问 的 。 


Unscanned 





空 闪 的 和 未 被 访问 过 的 对 象 
reached 位 =0 


待 扫描 的 及 之 前 已 经 扫描 过 的 对 象 


reached 位 =1 


图 7-22 一 个 标记 -清扫 式 垃圾 回收 器 的 标记 阶段 中 对 象 之 间 的 关系 


第 (8) 行 到 第 (11) 行 是 清扫 阶段 ， 它 收回 所 有 那些 在 标记 阶段 
结束 之 后 仍然 未 被 访问 到 的 对 象 的 空间 。 请 注意 ， 这 些 对 象 将 包括 所 有 
原本 束 在 Free 列 表 中 的 对 象 。 因 为 无 法 直接 枚 举 不 可 达 对 象 的 集合 ， 这 
个 算法 将 清扫 整个 堆 区 。 第 (10) 行将 空闲 且 不 可 达 的 对 象 逐个 放 入 
Free 列 表 。 第 (11) 行 处 理 可 达 对 象 。 我 们 将 它们 的 reached 位 设 为 0， 
以 便 在 这 个 垃圾 回收 算法 下 一 次 运行 时 ， 其 前 置 条 件 得 到 满足 。 


7.6.2 ”基本 抽象 





所 有 基于 跟踪 的 算法 都 计算 可 达 对 象 集合 ， 然 后 取 这 个 集合 的 补 
集 。 因 此 ， 内 存 是 按照 下 列 方式 循环 使 用 的 : 


1) 程序 (或 者 说 增 变 者 ) 运行 并 发 出 分 配 请 求 。 

2) 垃圾 回收 融通 过 跟 躁 揭示 可 达 性 。 

3) 垃圾 回收 絮 收 回 不 可 达 对 象 的 存储 空间 。 

图 7-23 按 照 存储 块 的 四 种 状态 (空闲 的 、 未 被 访问 的 、 待 扫描 的 和 


已 扫描 的 ) 说 明 这 个 循环 。 一 个 存储 块 的 状态 可 以 存储 在 该 块 内 部 ， 也 
可 以 使 用 垃圾 回收 算法 的 某 个 数据 结构 隐 仿 地 表示 。 


(SR 的 “全 (人 玉 补 访问 的 


a) 跟踪 之 前 : 增 变 者 的 动作 
未 被 访问 的 


待 扫 摘 的 






从 根 集 
访问 到 


b) 通过 跟踪 发 现 可 达 性 


CC 空间 的 回收 __( 祭 被 访问 的 
-准备 下 一 
已 扫描 的 次 回收 


c) 回收 存储 空间 
图 7-23 在 一 个 垃圾 回收 循环 中 的 存储 块 的 状态 


虽然 不 同 的 基于 跟踪 的 算法 可 能 在 实现 方法 上 有 所 不 同 ， 但 是 它们 
都 可 以 通过 下 列 状 态 进 行 描述 : 


1) 空闲 的 。 存 储 块 处 于 空闲 状态 表示 它 可 以 被 分 配 。 因 此 ， 一 个 
空闲 块 内 不 会 存放 任何 可 达 对 象 。 


2) 未 被 访问 的 。 除 非 通过 跟踪 证 明 存 储 块 可 达 ， 和 否则 它 被 默认 为 
是 不 可 达 的 。 在 垃圾 回收 过 程 中 的 任何 时 刻 ， 如 果 还 没有 确定 一 个 块 的 
可 达 性 ， 该 块 就 处 于 未 被 访问 的 状态 。 如 图 7-23a 所 示 ， 当 一 个 存储 块 
被 存储 管理 器 分 配 出 去 时 ， 它 的 状态 就 被 设置 为 未 被 访问 的 。 一 轮 垃圾 
回收 之 后 ， 可 达 对 象 的 状态 仍然 会 被 重 置 为 未 被 访问 状态 ， 以 准备 下 一 
轮 处 理 ， 参 见 图 中 从 已 打 描 状态 到 未 被 访问 状态 的 转换 。 这 个 转换 用 虚 
线 显 示 ， 以 强调 它 是 为 下 一 轮 处 理 做 准备 。 


3) 待 扫描 的 。 已 知 可 达 的 存储 块 要 么 处 于 待 扫 描 状态 ， 要 么 处 于 
己 扫 描 状 态 。 如 来 已 知 一 个 存储 块 是 可 达 的 ， 但 是 该 块 中 的 指针 还 没 被 
扫描 ， 那 么 该 块 就 处 于 待 扫描 状态 。 当 我 们 发 现 东 个 块 可 达 时 ， 束 会 发 
生 一 个 从 未 被 访问 状态 到 待 扫描 状态 的 转换 ， 如 图 7-23b 所 示 。 








4) 已 扫描 的 。 每 个 待 扫描 对 象 最 终 都 将 被 扫描 并 转换 到 已 扫描 状 
态 。 在 扫描 一 个 对 象 时 ， 我 们 检查 其 内 部 的 各 个 指针 ， 并 且 治 着 这 些 指 
针 找到 它们 引用 的 对 象 。 如 果 引 用 指 问 一 个 未 被 访问 的 对 象 ， 那 么 该 对 
象 将 被 设 为 待 扫 描 状 态 。 当 对 一 个 对 象 的 扫描 结束 时 ， 这 个 对 象 被 放 入 
己 扫 描 状态 ， 见 7-23b 中 下 面 的 转换 。 一 个 已 扫描 的 对 象 只 能 包含 指向 
其 他 已 扫描 或 待 扫 描 对 象 的 引用 ， 决 不 会 包含 指 问 未 被 访问 对 象 的 引 
用 











当 不 再 有 对 象 处 于 待 扫描 状态 时 ， 可 达 性 的 计算 就 完成 了 。 到 最 后 
仍然 处 于 未 被 访问 状态 的 对 象 确实 是 不 可 达 的 。 垃 圾 回收 需 收 回 它 们 后 
用 的 空间 ， 并 将 这 些 存储 块 置 于 空闲 的 状态 ， 如 图 7-23c 中 实 线 转换 所 
示 。 为 了 准备 下 一 轮 垃圾 回收 ， 处 于 已 扫描 状态 中 的 对 象 将 回 到 未 被 访 
问 状 态 ， 见 图 7-23c 中 的 虚线 转换 。 再 次 提醒 大 家 ， 这 些 对 象 现 在 确实 
是 可 达 的 。 将 它们 设 定 为 未 被 访问 状态 是 正确 的 ， 因 为 当下 一 轮 垃圾 回 
收 开 始 时 ， 我 们 将 要 求 所 有 对 象 痢 从 这 个 状态 出 及 。 在 那个 时 候 ， 当 前 
可 达 的 茶 些 对 象 可 能 实际 上 已 经 被 变 成 了 不 可 达 的 。 


我 们 看 一 下 算法 7.12 中 的 数据 结构 与 上 面 介 绍 的 四 种 状态 有 什 
么 天 系 。 使 用 reached 位 ， 以 及 是 否 在 列表 Free 和 Unscanned 中 ， 我 们 可 
以 区 分 全 部 四 种 状态 。 图 7-24 中 的 表格 归纳 了 用 算法 7.12 中 的 数据 结构 
来 刻画 四 种 状态 的 方式 。 


| 状态 。 ”| 在 列表 Free 中 在 Unscanned 列 表 中 ”Reached 位 


空闲 是 向 0 
否 0 
否 1 
香 理 1 


未 被 访问 的 
图 7-24 算法 7. 12 中 状态 的 表示 方式 













呆 


tn 


待 扫描 
已 扫描 


7.6.3 ”标记 -清扫 式 算 法 的 优化 





基本 的 标记 -清扫 式 算 法 的 最 后 一 步 的 代价 很 大 ， 因 为 没有 一 个 容 
易 的 方法 可 以 不 用 检 柱 整个 堆 区 就 找到 所 有 不 可 达 对 象 。 由 Baker 提 出 
的 一 个 优化 算法 用 一 个 列表 记录 了 所 有 已 分 配 的 对 象 。 我 们 必须 将 不 可 
达 对 象 的 存储 返回 给 空闲 空间 。 为 了 找 出 不 可 达 对 象 的 集合 ， 我 们 可 以 


求 已 分 配对 象 和 可 达 对 象 之 间 的 差 集 。 
Baker 的 标记 -清扫 式 回收 器 。 


输入 : 一 个 由 对 象 组 成 的 根 集 ， 一 个 扒 区 ， 一 个 空 亲 列表 Free， 一 
个 名 为 Unreached 的 已 分 配对 象 的 列表 。 


输出 : 经 过 修改 的 Free 列 表 和 和 Unreached 列表 。Unreached 列 表 保 存 
了 被 分 配 的 对 象 。 


方法 : 这 个 算法 如 图 7-25 所 示 。 算 法 中 用 于 垃圾 回收 的 数据 结构 是 
名 字 分 别 为 Free、Unreached、Unscanned、Scanned 的 四 个 列表 。 这 些 列 
表 分 别 保存 了 处 于 空 厢 、 未 被 访问 、 竺 扫描 和 已 扫描 状态 上 的 所 有 对 
象 。 像 7.4.4 节 中 讨论 的 那样 ， 这 些 列表 可 以 通过 租 入 式 的 双重 链表 来 实 
现 。 对 象 中 的 reached 位 没有 被 使 用 ， 但 是 我 们 假定 每 个 对 象 中 都 包含 了 
一 些 二 进 制 位 ， 指 明 该 对 象 处 于 上 述 四 个 状态 的 哪 一 个 。 最 初 ，Free 就 
是 由 存储 管理 器 维护 的 空 亲 列表， 所 有 已 分 配 的 对 象 都 在 Unreached 列 
表 中 (这 个 表 同 时 也 由 存储 管理 器 在 为 对 象 分 配 存储 块 时 维护 〉。 














1) Scanned = 6; 
2) Unscanmed = 在 根 集中 引用 的 对 象 的 集合 ; 并 将 这 些 对 象 从 Unreached 中 删除 ; 
3) while (Unscanned 0) 1{ 
4) 将 对 象 从 Unscanmned 移动 到 Scanmed:; 
5) for (在 o 中 引用 的 每 个 对 象 o') { 
6) 站 (o' 在 Unreached 中 ) 
7) 将 0 从 Unreached 移动 到 Unscanned 中; 
} 
} 
8) Free = Free UU Unreached: 
9) Unreached = Scanned: 








图 7-25 ”Baker 的 标记 -清扫 式 算 法 


第 (1) 、 (2) 行将 Scanned 列 表 初 始 化 为 空 列 表 ， 并 将 Unscanned 
列表 初始 化 为 仅 包 含 那 些 可 以 从 根 集 访问 的 对 象 。 值 得 注意 的 是 ， 这 些 
对 象 本 来 都 在 列表 Unreached 中 ， 现 在 它们 必须 从 该 列表 中 删除 。 第 
(3) 行 到 第 (7) 行 是 一 个 使 用 这 些 列 表 的 基本 标记 -清扫 式 算 法 的 简 
单 实现 。 也 束 是 说 ， 第 〈5) 行 到 第 (7) 行 的 for 循 环 检 查 了 一 个 待 扫 摘 
对 象 o 中 的 所 有 引用 ， 如 果 这 些 引 用 中 的 某 一 个 o' 还 没有 被 访问 过 ， 则 
第 (7) 行将 o' 改 变 为 待 打 描 状态 。 





然后 ， 第 (8) 行 处 理 所 有 仍然 在 Unreached 列 表 中 的 对 象 ， 将 它们 
移 到 Free 列 表 中 ， 从 而 回收 它们 的 存储 块 。 然 后 ， 第 (9) 行 处 理 所 有 
处 于 已 扫描 状态 的 对 象 ， 即 所 有 的 可 达 对 象 ， 并 将 Unreached 列 表 重 新 
初始 化 ， 使 之 恰好 包含 这 些 对 象 。 我 们 假设 ， 当 存储 管理 器 创建 新 对 象 
时 ， 它 们 同样 会 被 移出 Free 列 表 ， 加 入 到 Unreached 列 表 中 。 


在 本 节 介 绍 的 两 个 算法 中 ， 我 们 都 假设 返回 给 空 内 列表 的 存储 块 仍 
然 保 持 被 回收 前 的 样子 。 然 而 ， 如 7.4.4 节 中 讨论 的 ， 将 相 邻 的 空闲 块 合 
并 成 较 大 的 块 常常 会 带 来 好 处 。 如 果 我 们 想 这 样 做 ， 那 么 在 图 7-21 的 第 
(10) 行 或 图 7-25 的 第 (8) 行 上 ， 每 次 我 们 将 一 个 存储 块 放 入 空闲 列 
表 时 ， 我 们 检查 该 块 的 左 端 和 右 端 ， 如 果 有 一 端 为 空闲 就 进行 合并 。 


7.6.4 ”标记 并 压缩 的 垃圾 回收 器 


进行 重新 定位 〈relocating) 的 垃圾 回收 器 会 在 堆 区 内 移动 可 达 对 象 
以 消除 存储 碎 刻 。 通 常 ， 可 达 对 象 占用 的 空间 要 大 大 小 于 空闲 空间 。 因 
此 ， 在 标记 出 所 有 的 “窗口 * 之 后 并 不 一 定 要 逐个 释放 这 些 空间 ， 男 一 个 
有 吸引 力 的 做 法 是 将 所 有 可 达 对 象 重 新 定位 到 堆 区 的 一 端 ， 使 得 堆 区 的 
所 有 空 闪 空间 成 为 一 个 块 。 毕 葛 垃 圾 回收 器 已 经 分 析 了 可 达 对 象 中 的 每 
个 引用 ， 因 此 更 新 这 些 引 用 使 之 指 同 新 的 存储 位 置 并 不 需要 增加 很 多 工 
人 











将 所 有 可 达 对 象 放 在 一 段 连 续 的 位 置 上 可 以 减少 内 存 空间 的 雄 片 ， 
使 得 它 更 容易 存储 较 大 的 对 象 。 同 时 ， 通 过 使 数据 占用 更 少 的 缓存 线 和 
内 存 页 ， 重 新 定位 可 以 提高 程序 的 时 间 局 部 性 和 空间 局 部 性 ， 因 为 几乎 
同时 创建 的 对 象 将 被 分 配 在 相 邻 的 存储 块 中 。 如 果 这 些 相 邻 的 块 中 的 对 
象 一 起 使 用 ， 那 么 就 可 以 从 数据 预 取 中 得 到 好 处 。 不 仅 如 此 ， 用 以 维护 
空 几 空间 的 数据 结构 也 可 以 得 到 简化 。 我 们 不 再 需要 一 个 空 几 空间 列 
表 ， 需 要 的 只 是 一 个 指 同 唯 一 空闲 块 的 起 始 位 置 的 指针 free。 


存在 多 种 进行 重新 定位 的 回收 峰 ， 其 不 同 之 处 在 于 它们 是 在 本 地 进 
行 重 新 定位 ， 还 是 在 重新 定位 之 前 预 留 了 空间 : 


。 本 节 摘 述 的 标记 并 压缩 回收 器 (mark-and-compact collector) 在 本 
地 压缩 对 象 。 在 本 地 重新 定位 可 以 降低 存储 需求 。 




















。 7.6.5 节 中 给 出 了 更 高 效 、 更 流行 的 拷贝 回收 器 〈copying 
collector) ， 它 把 对 象 从 内 存 的 一 个 区 域 移 到 男 一 个 区 域 。 保 留 额 
外 的 空 < 间 用 于 重新 定位 可 以 使 得 一 友 现 可 达 对 象 就 立刻 移动 它 。 
算法 7.15 中 的 标记 并 压缩 垃圾 回收 器 有 3 个 阶段 : 


1) 首先 是 标记 阶段 ， 它 和 前 面 描述 的 标记 -清扫 式 算法 的 标记 阶段 
类 似 。 

2) 在 第 二 阶段 ， 算 法 扫描 堆 区 中 的 已 分 配 内 存 段 ， 并 为 每 个 可 达 
对 象 计算 新 的 地 址 。 新 地 址 从 堆 的 最 低 端 开始 分 配 ， 因 此 在 可 达 对 象 之 
间 没 有 空 闪 存储 窗口 。 每 个 对 象 的 新 地 址 记录 在 一 个 名 为 NewLocation 
的 结构 中 。 


3) 最 后 ， 算 法 将 对 象 找 贝 到 它们 的 新 地 址 ， 更 新 对 象 中 的 所 有 引 
用 ， 使 之 指 同 相应 的 新 地 址 。 新 的 地 址 可 以 在 NewLocation 中 找到 。 


一 个 标记 并 压缩 的 垃圾 回收 器 。 


输入 : 一 个 由 对 象 组 成 的 根 集 ， 一 个 堆 ， 以 及 一 个 标记 空闲 空间 的 
起 始 位 置 的 指针 free。 


输出 : 指针 free 的 新 值 。 
方法 : 图 7-26 给 出 了 这 个 算法 ， 此 算法 使 用 下 列 的 数据 结构 : 

















/六 标记 *#/ 
V7msca7z7ed == 根 集 引 用 的 对 象 的 集合 ; 
while (Unscanned 0) { 
从 Unscanmned 中 移 除 对 象 o; 
for (在 o 中 引用 的 每 个 对 象 o ) { 
if (o' 是 未 被 访问 的 ) { 
将 o' 标记 为 已 被 访问 的 ; 
将 o 加 入 到 列表 Unscanmed 中 
} 
上 # 计算 新 的 位 置 */ 
free = 堆 区 的 开始 位 置 ; 
for (从 低 端 开始 ， 遍 历 堆 区 中 的 每 个 存储 块 o) { 
if (0 是 已 被 访问 的 { 
NewLocation(o) = free:; 
free = free + sizeof(o); 


} 
/” 重 新 设置 引用 目标 并 移动 已 被 访问 的 对 象 */ 
for ( 从 低 端 开始 ， 堆 区 中 的 每 个 存储 块 o ) { 
if (0 是 已 被 访问 的 ) { 
for (o 中 的 每 个 引用 o.7 ) 
o7 = NewLocation(o.7); 


将 o 拷贝 到 NewLocation(o); 


} 
for ( 根 集 中 的 每 个 引用 7 ) 


r= NewLocation(7); 





图 7-26 一 个 标记 并 压缩 回收 器 
1) 一 个 Unscanned 列 表 ， 同 算法 7.12 中 的 Unscanned 列 表 。 


2) 所 有 对 象 的 reached 位 也 和 算法 7.12 中 相同 。 为 了 使 我 们 的 描述 
简单 ， 当 我 们 要 说 一 个 对 象 的 reached 位 为 1 或 0 时 ， 我 们 分 别称 它们 
为 “已 被 访问 的 ?或 “未 被 访问 的 ”。 在 初始 时 刻 ， 所 有 的 对 象 都 是 未 被 访 


问 的 。 
3) 指针 free， 标 记 了 堆 区 中 未 分 配 空间 的 开始 位 置 。 


4) NewLocation 表 。 这 个 结构 可 以 是 任意 一 个 实现 了 如 下 两 个 操作 
的 散 列 表 、 搜 索 树 或 其 他 数据 结构 : 


GD 将 NewLocation (o) 设 为 对 象 o 的 新 地 址 。 
@ 给 定 对 象 0o， 得 到 NewLocation (Co) 的 值 。 


我 们 不 会 关心 到 底 使 用 了 什么 样 的 数据 结构 ， 虽 然 你 可 以 假设 
NewLocation 是 一 个 散 列 表 ， 因 此 “set* 和 “get” 操 作 所 需要 的 平均 时 间 为 
某 个 常量 ， 这 个 时 间 和 堆 区 内 的 对 象 数 量 无 关 。 


第 (1) 行 到 第 (7) 行 的 第 一 《或 标记 ) 阶段 在 本 质 上 和 算法 7.12 
的 第 一 阶段 相同 。 第 二 阶段 是 从 第 (8) 行 到 第 (12) 行 。 该 阶段 从 左 
边 《〈 或 者 说 从 低地 址 问 ) 开始 访问 堆 中 的 已 分 配 部 分 的 每 一 个 存储 块 。 
结果 ， 被 分 配给 存储 块 的 新 地 址 与 它们 的 老 地 址 按照 同样 的 顺序 增长 。 
这 个 顺序 很 重要 ， 它 可 以 保证 我 们 在 重新 定位 对 象 时 总 是 将 对 象 癌 左 
移 ， 那 么 在 移动 时 ， 原 来 占据 目标 空间 的 对 象 已 经 被 我 们 移 走 了 。 


第 (8) 行 首 和 完 将 free 指 针 设 定 为 指 疝 堆 区 的 低 端 。 在 这 个 阶段 ， 我 
们 使 用 free 来 指示 第 一 个 可 用 的 新 地 址 。 我 们 只 会 为 标记 为 已 被 访问 的 
对 象 o 创 建新 的 地 址 。 在 第 (10) 行 中 ， 对 象 o 被 赋予 下 一 个 可 用 地 址 ; 
在 第 (11) 行 ， 我 们 根据 对 象 o 需 要 的 存储 数量 增加 free 指 针 ， 因 此 free 
仍然 指 癌 空 用 空 间 的 开始 位 置 。 


从 第 (13) 行 到 第 (17) 行 是 最 后 阶段 ， 此 时 我 们 再 次 按照 第 二 阶 
段 中 的 自 左 向 右 的 顺序 访问 可 达 对 象 。 第 〈15) 、【〈16) 行将 一 个 已 被 
访问 到 的 对 象 o 的 所 有 内 部 指针 丛 换 为 它们 的 新 地 址 ，NewLocation 表 用 
来 确定 这 个 新 的 地 址 。 然 后 ， 第 (17) 行将 内 部 引用 已 被 更 新 的 对 象 o 
移动 到 新 的 位 置 。 最 后 ， 第 〈18) 和 (19) 行 重新 确定 根 集 元 系 中 的 指 
针 指 癌 的 目标 ， 这 些 元 素 本 身 不 是 堆 区 对 象 ， 它 们 可 能 是 静态 分 配对 象 
或 栈 分 配对 象 。 图 7-27 说 明了 如 何 将 可 达 对 象 〈 图 中 无 阴影 的 对 象 ) 移 
动 到 扒 区 的 砌 部 ， 同 时 内 部 指针 被 修改 ， 指 加 已 被 访问 对 象 的 新 位 置 。 















































空闲 


图 7-27 将 已 被 访问 对 象 移动 到 堆 的 前 部 ， 同 时 保持 内 部 指针 的 指向 关系 


7.6.5 拷贝 回收 器 


拷贝 回收 器 预先 保留 了 可 以 将 对 象 移入 的 空间 ， 因 而 解除 了 跟踪 和 
发 现 空闲 空间 之 间 的 依赖 关系 。 整 个 存储 空间 被 划分 为 两 个 半空 间 
Csemispace) A 和 B。 增 变 者 在 半空 间 之 一 (比如 A〉 内 分 配 内 存 ， 直 
到 它 被 填 满 。 此 时 增 变 者 停止 ， 垃 圾 回收 器 将 可 达 对 象 拷贝 到 另 一 个 半 
空间 ， 比 如 说 B。 当 垃圾 回收 完成 时 ， 两 个 半空 间 的 角色 进行 对 换 。 增 
变 者 可 以 继续 运行 ， 并 在 半空 间 B 中 分 配对 象 。 下 一 轮 垃圾 回收 将 把 可 
达 对 象 移动 到 A。 下 面 的 算法 是 由 C.J.Cheney 提 出 的 。 


Cheney 的 拷贝 回收 器 。 

和 输入: 一 个 由 对 象 组 成 的 根 集 ， 一 个 包含 了 From 半 空间 和 To 半空 
间 的 堆 区 ， 其 中 From 半 空间 包含 了 已 分 配对 象 ，To 半 空间 全 部 是 空闲 
的 。 


输出 : 最 后 ，To 半 空间 保存 已 分 配 的 对 象 。free 指 针 指 明了 To 半空 
间 中 剩余 空闲 空间 的 开始 位 置 。From 半 空间 此 时 全 部 空闲 。 

方法 图 7-28 显 示 了 这 个 算法 。Cheney 算 法 在 From 半 空间 中 找 出 可 
达 对 象 ， 并 且 访 问 到 它们 时 立刻 把 它们 拷贝 到 To 半空 间 。 这 种 放置 方法 
将 相关 对 象 放 在 一 起 ， 从 而 提高 空间 局 部 性 。 


在 探讨 算法 本 喘 《〈 即 图 7-28 中 的 函数 CopyingCollector) 之 前 ， 首 先 














考虑 第 (11) 行 到 第 (16) 行 的 辅助 函数 LookupNewLocation。 该 函数 
的 输入 是 一 个 对 象 o， 如 果 o 在 To 空间 中 还 没有 对 应 的 位 置 ， 则 为 其 分 配 
一 个 To 空间 中 的 新 地 址 。 所 有 新 地 址 都 被 记录 在 一 个 结构 NewLocation 
中 ， 特 殊 值 Null 用 来 表示 还 没有 为 o 分 配 空间 包 。 和 算法 7.15 一 样 ， 
NewLocation 结 构 的 具体 形式 可 以 变化 ， 但 是 现在 假设 它 是 一 个 哈 希 表 
就 行 了 。 





CopyingCollector () { 
for (From 空间 中 的 所 有 对 象 0) NewLocation(o) =NULL; 
unscanned 二 free = To 空间 的 开始 地 址 ; 
for ( 根 集中 的 每 个 引用 7 ) 
将 7 赫 换 为 LookwpNewLocations(7); 
while (unscanned # free) { 
0 二 在 unscanned 所 指 位 置 上 的 对 象 ; 
for (o 中 的 每 个 引用 o.7 ) 
0.7 = LookupNewLocation(o.7); 
unscanned = unscanned + sizeof(o); 


hx 如 果 一 个 对 象 已 经 被 移动 过 了 ， 查 找 这 个 对 象 的 新 位 置 */ 
人 * 否则 将 对 象 设 置 为 待 扫描 状态 */ 
LookupNewLocation(o) { 
if (NewLocation(o) = NULL) { 
NewLocation(o) = free; 
free = free + sizeof(o); 
将 对 象 o 拷贝 到 NewLocation(o); 


return NewLocation(o); 





图 7-28 一 个 拷贝 垃圾 回收 器 


如 果 我 们 在 第 12) 行 发 现 o 没 有 存储 位 置 ， 那 么 在 第 (13) 行 上 
它 将 被 赋予 To 半空 间 中 空 闪 空间 的 开始 位 置 。 第 (14) 行使 free 指 针 增 
加 o 所 占 的 空间 数量 。 在 第 (15) 行 ， 我 们 将 0o 从 From 空 间 找 贝 到 To 空 
间 。 因 此 ， 对 象 从 一 个 半空 间 到 另 一 个 半空 间 的 移动 实际 上 是 一 个 函数 
的 副作用 。 这 个 副作用 发 生 在 我 们 第 一 次 为 这 个 对 象 寻找 新 地 址 的 时 
候 。 不 管 之 前 有 没有 设 定 对 象 o 的 位 置 ， 第 (16) 行 返 回 o 在 To 空间 中 的 
位 置 。 





现在 我 们 可 以 考虑 这 个 算法 本 身 了 。 第 〈2) 行 确保 From 空 间 中 的 
所 有 对 象 都 还 没有 新 地 址 。 在 第 (3) 行 中 ， 我 们 初始 化 两 个 指针 
unscanned 和 free， 使 它们 都 指向 To 半空 间 的 开始 位 置 。 指 针 free 将 总 是 
指 回 To 半空 间 中 空闲 空间 的 起 始 位 置 。 当 我 们 往 To 空 间 加 入 对 象 时 ， 
那些 地 址 低 于 unscanned 的 对 象 将 处 于 已 扫描 状态 ， 而 那些 位 于 
unscanned 和 free 之 间 的 对 象 则 处 于 待 扫描 状态 。 因 此 ，free 总 是 在 
unscanned 的 前 面 。 当 后 者 妃 上 前 者 时 就 表示 不 存在 更 多 的 待 扫 描 对 象 
了 ， 我 们 就 完成 了 垃圾 回收 工作 。 请 注意 ， 我 们 是 在 To 空间 中 完成 垃圾 
| 尽管 在 第 〈8) 行 中 检查 的 对 象 中 的 所 有 引用 都 是 指 回 
From 衬 上 间 


第 (4) 行 和 第 (5) 行 处 理 可 以 从 根 集 访问 到 的 对 象 。 请 注意 ， 
为 函数 副作用 ， 在 第 (5) 行 中 对 LookupNewLocation 的 某 些 调用 会 在 To 
中 为 这 些 对 象 分 配 存储 块 ， 同 时 增加 free 指 针 的 值 。 因 此 ， 除 非 没 有 被 
根 集 引 用 的 对 象 〈 在 这 种 情况 下 ， 整 个 堆 区 都 是 垃圾 ) ， 当 程序 第 一 次 
运行 到 这 里 时 将 进入 第 (6) 行 到 第 《10) 行 的 循环 。 然 后 ， 这 个 循环 
扫描 所 有 已 经 被 加 入 到 To 空间 中 并 处 于 待 扫 描 状 态 的 对 象 。 第 (7) 行 
处 理 下 一 个 竺 扫描 的 对 象 o。 在 第 (8) 、 〈9) 行 ， 对 于 o 中 的 每 个 引 
人 从 它 在 From 半 空 s 间 中 的 原 值 被 翻译 为 在 To 半空 x 间 中 的 值 。 请 注 

因为 函数 副作用 ， 如 有 末 o 内 的 某 个 引用 所 指 同 的 对 象 之 前 还 没有 被 
访问 过 : 那么 第 (9) 行 中 对 LookupNewLocation 的 调用 将 在 To 空 x 间 中 为 
这 个 对 象 分 配 空间 并 将 它 移 到 该 空间 中 。 最 后 ， 第 (10) 行 增加 指针 
unscanned 的 值 ， 使 之 指 同 下 一 个 对 象 ， 即 To 空间 中 o 之 后 的 对 象 。 





























7.6.6 ”开销 的 比较 


Cheney 算 法 的 优势 在 于 它 不 会 涉及 任何 不 可 达 对 象 。 男 一 方面 ， 找 
由 垃圾 回收 费 必 须 移 动 所 有 可 达 对 象 的 内 容 。 对 于 大 型 对 象 ， 或 者 那些 
经 历 了 多 轮 垃圾 收集 过 程 的 生命 周期 长 的 对 象 而 言 ， 这 个 过 程 的 开销 特 
别 蜗 。 我 们 对 本 市 给 出 的 四 种 算法 的 运行 时 间 进 行 总 结 。 下 面 的 每 个 估 
算 都 忽略 了 处 理 根 集 的 开销 。 


. 人 清扫 式 算 法 〈 算 法 7.12) : 与 堆 区 中 存储 块 的 数目 成 正 
e a 清扫 式 算 法 (算法 7.14) : 与 可 达 对 象 的 数目 成 正 











| 

。 基本 的 标记 并 压缩 算法 《算法 7.15) : 与 堆 区 中 存储 块 的 数目 和 可 
达 对 象 的 总 大 小 成 正比 。 

。 Cheney 的 拷贝 回收 器 《算法 7.16) : 与 可 达 对 象 的 总 大 小 成 正比 。 


7.6.7 7.6 节 的 练习 

练习 7.6.1: 当下 列 事件 发 生 时 ， 给 出 标记 -清扫 式 垃圾 回收 器 的 处 
理 步 又 。 

1) 图 7-19 中 指针 A ~B 被 删除 。 

2) 图 7-19 中 指针 A ~ C 被 删除 。 

3) 图 7-20 中 指针 AD 被 删除 。 

4) 图 7-20 中 对 象 B 被 删除 。 

练习 7.6.2: Baker 的 标记 -清扫 式 算 法 在 四 个 列表 Free、Unreached、 
Unscanned 和 Scanned 之 间 移 动 对 象 。 对 于 练习 7.6.1 中 的 每 个 对 象 网 络 中 
的 每 个 对 象 ， 指 出 从 垃圾 回收 过 程 刚 开始 到 该 过 程 刚 结束 的 时 间 段 内 ， 
该 对 象 所 经 历 的 列表 的 序列 。 


练习 7.6.3: 假设 我 们 在 练习 7.6.1 中 的 各 个 网 络 上 执行 了 一 个 标记 并 
压缩 垃圾 回收 过 程 。 同 时 假设 


1) 每 个 对 象 的 大 小 是 100 个 字 节 。 


2) 在 开始 时 刻 ， 扒 区 中 的 9 个 对 象 按照 字母 顺序 从 堆 区 的 第 0 个 字 
节 开 始 排列 。 


在 垃圾 回收 过 程 结束 之 后 ， 各 个 对 象 的 地 址 是 什么 ? 


练习 7.6.4: 假设 我 们 在 练习 7.6.1 中 的 各 个 网 络 上 执行 了 Cheney 的 找 
贝 垃圾 回收 算法 。 同 时 假设 


1) 每 个 对 象 的 大 小 为 100 字 市 。 





2) 竺 扫描 的 列表 按照 队列 的 方式 进行 管理 ， 并 且 当 一 个 对 象 具有 
多 个 指针 时 ， 被 访问 到 的 对 象 按照 字母 顺序 被 加 入 到 队列 中 。 


3) From 半 空间 从 位 置 0 开始 ，To 半 空间 从 位 置 10000 开 始 。 


在 垃圾 回收 完成 之 后 ， 每 个 保留 下 来 的 对 象 o 的 NewLocation (0) 
的 值 是 什么 ? 











7.7， 短 停顿 垃圾 回收 


简单 的 基于 跟踪 的 回收 器 是 以 全 面 停顿 的 方式 进行 垃圾 回收 的 ， 它 
可 能 造成 用 户 程 序 的 运行 的 长 时 间 的 停顿 。 我 们 可 以 每 次 只 做 部 分 垃圾 
回收 工作 ， 从 而 减少 一 次 停顿 的 长 度 。 我 们 可 以 按照 时 间 来 分 割 工作 任 
务 ， 使 垃圾 回收 和 增 变 者 的 运行 交错 进行 。 我 们 也 可 以 按照 空间 来 分 割 
工作 任务 ， 每 次 只 完成 一 部 分 垃圾 的 回收 。 前 者 称 为 增 量 式 回 收 
(incremental collection ) ， 后 者 称 为 部 分 回收 (partial collection ) 。 


增 量 式 回收 器 将 可 达 性 分 析 任 务 分 割 成 为 符 干 个 较 小 单元 ， 并 人 允许 
增 变 者 和 这 些 任务 单元 交错 运行 。 可 达 集 合 会 随 独 增 变 者 的 运行 发 生变 
化 ， 因 此 增 量 式 回收 是 很 复杂 的 。 我 们 将 在 7.7.1 节 看 到 ， 寻 找 一 个 稍微 
保守 的 解决 方法 将 使 得 跟踪 更 加 高 效 。 


最 有 名 的 部 分 回收 算法 是 世代 垃圾 回收 (generational garbage 
collection〉。 它 根据 对 象 已 分 配 时 间 的 长 短 来 划分 对 象 ， 并 且 较 频繁 地 
回收 新 创建 的 对 象 ， 因 为 这 些 对 象 的 生命 周期 往往 较 短 。 另 一 种 可 选 的 
算法 是 列车 算法 (train algorithm) ， 也 是 每 次 只 回收 一 部 分 垃圾 。 它 最 
适合 回收 较 成 熟 的 对 象 。 这 两 个 算法 可 以 联合 使 用 ， 构 成一 个 部 分 回收 
器 。 这 个 回收 器 使 用 不 同 的 方法 来 处 理 较 新 的 和 较 成 熟 的 对 象 。 我 们 将 
在 7.7.3 节 讨论 有 关 部 分 回收 的 基本 算法 ， 然 后 详细 地 描述 世代 算法 和 列 
车 先决 鸭 工 作 原 理 ， 


来 自 于 增 量 回收 算法 和 部 分 回收 算法 的 思想 经 过 修改 ， 可 以 用 于 构 
造 一 个 在 多 处 理 器 系统 中 并 行 回收 对 象 的 算法 ， 见 7.8.1 节 。 

















7.7.1 增 量 式 垃 圾 回收 





增 量 式 回收 器 是 保守 的 。 虽 然 垃 圾 回收 器 一 定 不 能 回收 不 是 垃圾 的 
对 象 ， 但 是 它 并 不 一 定 要 在 每 一 轮 中 回收 所 有 的 垃圾 。 我 们 将 每 次 回收 
之 后 留 下 的 垃圾 称 为 漂浮 垃圾 (floating garbage) 。 我 们 当然 期 望 漂浮 
垃圾 越 少 越 好 。 明 确 地 说 ， 增 量 式 回 收 器 不 应 该 遗漏 那些 在 回收 周期 开 
始 时 就 已 经 不 可 达 的 垃圾 。 如 果 我 们 能 够 保证 做 到 这 一 点 ， 那 么 在 某 一 





轮 中 没有 被 回收 的 垃圾 一 定 会 在 下 一 轮 中 被 回收 。 因 此 不 会 因为 这 个 垃 
圾 回收 方法 而 产生 内 存 泄漏 问题 。 


换 句 话说 ， 增 量 式 垃圾 回收 费 会 过 多 地 估算 可 达 对 象 集合 ， 从 而 保 
证 安全 和 性。 它们 首先 以 不 可 中 断 的 方式 处 理 程序 的 根 集 ， 此 时 没有 来 自 
增 变 者 的 和 干扰。 在 找到 了 竺 扫描 对 象 的 初始 集合 之 后 ， 增 变 者 的 动作 与 
跟踪 步 又 交错 进行 。 在 这 个 阶段 ， 任 何 可 能 改变 可 达 性 的 增 变 者 动作 都 
被 简洁 地 记录 在 一 个 副 表 中 ， 使 得 回收 器 可 以 在 继续 执行 时 做 出 必要 的 
调整 。 如 末 在 跟 踩 完成 之 前 空间 吏 被 耗 尽 ， 那 么 回收 顷 将 不 再 允许 增 变 
者 执行 ， 并 完成 全 部 跟 踊 过 程 。 在 任何 情况 下 ， 当 跟踪 完成 后 ， 空 间 回 
收 以 原 语 的 方式 完成 。 


增 量 回收 的 准确 性 


一 旦 对 象 成 为 不 可 达 的 ， 该 对 象 就 不 可 能 再 变 成 可 达 的 。 因 此 ， 在 
垃圾 回收 和 增 变 者 运行 时 ， 可 达 对 象 的 集合 只 可 能 : 


1) 因为 垃圾 回收 开始 之 后 的 茶 个 新 对 象 的 分 配 而 增长 。 

2) 因为 失去 了 指 同 已 分 配对 象 的 引用 而 缩小 。 

令 垃 圾 回收 开始 时 的 可 达 对 象 集合 为 R， 令 New 表 示 在 垃圾 回收 期 
间 创 建 并 分 配 的 对 象 集合 ， 并 令 Lost 表 示 在 跟踪 开始 之 后 因为 引用 丢失 


和 























(R UNew) -Lost 


如 果 在 每 次 增 变 者 丢失 了 一 个 指 问 某 个 对 象 的 引用 之 后 都 重新 确定 
该 对 象 的 可 达 性 ， 那 么 开销 会 变 得 很 大 ， 因 此 增 量 式 回收 器 并 不 试图 在 
跟踪 结束 时 回收 所 有 的 垃圾 。 任 何 遗 留 下 的 垃圾 一 一 漂浮 垃圾 一 应 该 
是 Lost 对 象 的 一 个 子 集 。 如 果 形 式 化 地 描述 ， 那 通过 跟踪 找到 的 对 象 集 
合 S 必 须 满足 





(RUNew) -Lost ES CC (R UNew) 
简单 的 增 量 式 跟踪 
我 们 首先 描述 一 种 用 来 找到 集合 R UNew 的 上 界 的 简单 跟踪 算法 。 


在 跟踪 期 间 ， 增 变 者 的 行为 更 改 如 下 : 


。 在 垃圾 回收 开始 之 前 已 经 存在 的 所 有 引用 部 被 保留 。 也 就 是 说 ， 在 
增 变 者 履 写 一 个 引用 之 前 ， 它 原来 的 值 被 记 住 ， 并 被 当 作 一 个 只 包 
含 这 个 引用 的 附加 每 扫描 对 象 。 

0 








这 种 方案 是 保守 且 正 确 的 ， 因 为 它 找 出 了 R 和 New。R 是 在 垃圾 回 

收 之 前 可 达 的 所 有 对 象 的 集合 ，New 是 所 有 新 分 配 的 对 象 的 集合 。 然 
而 ， 这 种 方案 付出 的 代价 也 很 高 ， 因 为 算法 需要 拦截 所 有 的 写 运算 ， 并 
记 住所 有 被 履 写 的 引用 。 这 些 工作 中 的 一 部 分 是 不 必要 的 ， 因 为 它 涉及 
的 对 象 在 垃圾 回收 结束 时 可 能 已 经 古 不 可 达 的 。 如 果 我 们 能 够 探测 到 哪 
些 被 履 写 的 引用 所 指 的 对 象 在 本 轮 垃圾 回收 结束 时 不 可 达 ， 我 们 就 可 以 
避免 这 部 分 工作 ， 同 时 还 可 以 提高 算法 的 准确 性 。 下 一 个 算法 在 这 两 个 
方面 都 做 了 很 好 的 改进 。 














7.7.2 ” 增 量 式 可 达 性 分 析 


如 果 我 们 让 增 变 者 和 一 个 像 算法 7.12 那 样 的 基本 跟踪 算法 交 蔡 执 
行 ， 那 么 一 些 可 达 对 象 可 能 会 被 错 认为 是 不 可 达 的 。 问 题 的 根源 在 于 增 
变 者 的 动作 可 能 会 违反 这 个 算法 的 一 个 关键 不 变 式 ， 即 一 个 已 扫描 对 象 
中 的 引用 只 能 指向 已 扫描 或 待 扫描 的 对 象 ， 这 些 引用 不 可 以 指向 未 被 访 
问 对 象 。 考 虑 下 面 的 场景 


1) 垃圾 回收 费 发 现 对 象 o 可 达 并 扫描 01 中 的 指针 ， 因 而 将 o1 置 于 已 
扫描 状态 。 


2) 增 变 者 将 一 个 指向 未 被 访问 (但 可 达 ) 的 对 象 o 的 引用 存放 到 已 
扫描 对 象 0 中 。 它 从 当前 处 于 未 被 访问 或 待 扫描 状态 的 对 象 0, 中 将 一 个 
指向 o 的 引用 拷贝 到 oj 中 。 


3) 增 变 者 失去 了 对 象 o> 中 指 回 o 的 引用 。 它 可 能 已 经 在 扫描 oz 中 指 
器 o 的 引用 之 前 就 覆 写 了 这 个 指针 ; 也 可 能 oz 已 经 变 得 不 可 达 ， 因 此 一 
直 没 有 进入 待 扫描 状态 ， 因 此 它 内 部 的 指针 没有 被 扫描 过 。 











现在 ，o 可 以 通过 对 象 oi 到 达 ， 但 是 记 圾 回收 器 可 能 既 没有 看 到 ol 
中 指 癌 o 的 引用 ， 也 没有 看 到 oz 中 指 癌 o 的 引用 。 


要 得 到 一 个 更 加 准确 且 正 确 的 增 量 式 跟 中 方法， 关键 在 于 我 们 必须 
注意 所 有 将 一 个 指 回 当 前 未 被 访问 对 象 的 引用 从 一 个 尚未 扫描 的 对 象 中 
拷贝 到 已 扫描 对 象 中 的 动作 。 为 了 截获 可 能 有 问题 的 引用 传递 ， 算 法 可 
以 在 跟 躁 过 程 中 按照 下 列 方式 修改 增 变 者 的 动作 : 


。 写 关卡 。 截 获 把 一 个 指向 未 被 访问 的 对 象 o 的 引用 写 入 一 个 已 扫描 
对 象 oi 的 运算 。 在 这 种 情况 下 ， 将 o 作 为 可 达 对 象 并 将 其 放 入 待 扫 
描 集 合 。 男 一 种 方法 是 将 被 写 对 象 01 放 回 到 待 扫描 集合 中 ， 使 得 我 
们 可 以 再 次 扫描 它 。 

读 关卡 。 截 获 对 未 被 访问 或 待 扫 描 对 象 中 的 引用 的 读 运算 。 只 要 增 
变 者 从 一 个 处 于 未 被 访问 或 待 扫 描 状 态 中 的 对 象 读 取 一 个 指向 对 象 
o 的 引用 时 ， 融 将 o 设 为 可 达 的 ， 并 将 其 放 入 竺 扫描 对 象 的 集合 。 
传递 关卡 。 和 截获 在 未 被 访问 或 待 扫描 对 象 中 原 引 用 丢失 的 情况 。 只 
要 增 变 者 覆 写 一 个 未 被 访问 或 待 扫描 对 象 中 的 引用 时 ， 保 存 即 将 被 
复写 的 引用 并 将 其 设 为 可 运 的 ， 然 后 将 这 个 引用 本 喘 用 入 待 扫描 集 


口 











上 述 几 种 做 法 都 不 能 找到 最 小 的 可 达 对 象 集合 。 如 果 跟 踪 过 程 确 定 
一 个 对 象 是 可 达 的 ， 那 么 这 个 对 象 就 一 直 被 认为 是 可 达 的 。 即 使 在 跟踪 
过 程 结束 之 前 所 有 指 同 它 的 引用 都 被 履 写 ， 它 仍然 被 认为 是 可 达 的 。 也 
束 是 说 ， 找 到 的 可 达 对 象 集 合 介 于 (RUNew) -Lost 与 (R UNew) 之 
间 。 


上 面 给 出 的 可 选 算 法 中 写 关 卡 方法 是 最 有 效 的 。 读 关卡 方法 的 代价 
较 高 ， 因 为 一 般 来 说 读 运算 要 比 写 运算 多 得 多 。 转 换 关 卡 没 有 什么 竞争 
力 ， 因 为 很 多 对 象 “ 英 年 早 逝 >， 这 种 方法 会 保留 很 多 的 不 可 达 对 象 。 


写 关 卡 的 实现 


我 们 可 以 用 两 种 方式 来 实现 写 关 卡 。 第 一 种 方式 是 在 增 变 阶段 记录 
下 所 有 被 写 入 到 已 扫描 对 象 中 的 新 引用 。 我 们 可 以 将 这 些 引 用 放 入 一 个 
列表 。 如 果 不 考 虑 从 列表 中 剔除 重复 引用 ， 列 表 的 大 小 和 对 已 扫描 对 象 
的 写 运算 的 数量 成 正比 。 注 意 ， 列 表 中 的 引用 本 喘 可 能 在 后 来 义 被 窗 写 
掉 ， 因 此 可 能 被 忽略 。 





























第 二 种 ， 也 是 更 有 效 的 方式 是 记 住 写 运 算 发 生 的 位 置 。 我 们 可 以 用 
被 写 位 置 的 列表 来 记录 它们 ， 其 中 可 能 会 消除 重复 的 位 置 。 请 注意 ， 只 
要 所 有 被 写 的 位 置 都 被 重新 扫描 ， 那么 是 否 精 确 记录 被 写 的 位 置 并 不 重 
因此 ， 有 多 种 技术 支持 我 们 记录 较 少 的 有 关 被 履 写 的 确切 位 置 的 细 


要 。 
节 ， 








我 们 可 以 只 记录 包含 了 被 写字 段 的 对 象 ， 而 不 需要 记录 被 写 的 精确 
地 址 或 者 被 写 的 对 象 及 字段 。 

我 们 可 以 将 地 址 空间 分 成 固定 大 小 的 块 ， 这 些 块 被 称 为 卡片 
(card) ， 并 使 用 一 个 位 数组 来 记录 曾经 被 写 入 的 卡片 。 

我 们 可 以 选择 记录 下 包含 了 被 写 位 置 的 页 。 我 们 可 以 只 将 那些 包含 
了 已 扫描 对 象 的 页 置 为 被 保护 状态 。 那 么 ， 不 需 执 行 任 何 显 式 的 指 
令 就 可 以 检测 到 任何 对 已 打 描 对 象 的 写 运算 。 因 为 这 样 的 写 运 算 会 
引发 一 个 保护 错误 ， 操 作 系 统 将 引发 一 个 程序 异常 


一 般 来 说 ， 通 过 增 大 被 履 写 位 置 的 记录 粒度 就 可 以 减少 所 需 的 存储 
空间 ， 但 代价 是 增加 了 需要 再 次 执行 的 扫描 工作 量 。 在 第 一 种 方案 中 ， 
无 论 实 际 上 修改 了 被 修改 对 象 中 的 哪个 引用 ， 该 对 象 中 的 所 有 引用 都 要 
进行 重新 扫描 。 在 后 两 种 方案 中 ， 在 被 修改 的 卡片 或 页 中 的 所 有 可 达 对 
象 都 要 在 跟踪 过 程 的 最 后 进行 重新 扫描 。 


结合 增 量 和 拷贝 技术 


上 述 的 方法 对 于 标记 -清扫 式 垃 圾 回收 来 说 已 经 足够 了 了。 因为 拷贝 
回收 和 增 变 者 的 相互 影响 ， 它 的 实现 要 稍微 复杂 一 点 。 处 于 已 扫描 或 待 
扫描 状态 中 的 对 象 有 两 个 地 址 ， 一 个 位 于 From 半 空间 ， 男 一 个 位 于 To 
半空 间 。 和 算法 7.16 一 样 ， 我 们 必须 保存 一 个 从 对 象 的 旧地 址 到 其 重新 
定位 之 后 的 地 址 的 上 映射。 


我 们 可 以 选择 两 种 更 新 引用 的 方法 。 第 一 种 方法 是 ， 我 们 可 以 让 增 
变 者 在 From 空 间 中 完成 所 有 的 运算 ， 只是 在 二 报 四 收 埋 束 的 时 候 才 更 新 
所 有 的 指针 ， 并 将 所 有 的 内 容 都 拷贝 到 To 空 s 间 。 第 二 种 方法 是 ， 我 们 可 
以 让 程序 直接 改变 To 空间 中 的 表示 。 妆 增 变 者 对 一 个 指 问 From 空 间 的 
旨 针 解 引用 时 ， 如 果 在 To 空间 中 存在 对 应 于 该 指针 的 新 位 置 ， 那 么 这 个 
指针 就 被 翻译 成 这 个 新 位 置 。 所 有 这 些 指针 在 最 后 都 需要 被 转换 成 指 同 
o 空 间 的 新 位 置 。 





















































7.7.3 ”部 分 回收 概述 


一 个 基本 的 事实 是 ， 对 象 通常 “ 英 年 早 逝 ?。 人 们 发 现 ， 通 闻 80% 一 
98% 的 新 分 配对 象 在 几 百 万 条 指令 之 内 ， 或 者 在 再 分 配 了 另外 的 几 兆 字 
市 之 前 就 消亡 了 。 也 就 是 说 ， 对 象 通常 在 垃圾 回收 过 程 启动 之 前 就 已 经 
变 得 不 可 达 了 。 因 此 ， 频 繁 地 对 新 对 象 进行 垃圾 具有 相当 高 的 性 价 比 。 


然而 ， 经 历 了 一 次 回收 的 对 象 很 可 能 在 多 次 回收 之 后 依然 存在 。 在 
迄今 为 止 描述 的 垃圾 回收 项 中 ， 同 一 个 成 熟 对 象 会 在 各 轮 垃圾 回收 中 被 
发 现 是 可 达 的 。 如 果 使 用 拷贝 回收 右 ， 这 些 对 象 会 在 各 轮 坛 圾 回收 中 被 
一 次 次 地 拷贝 。 世 代 回 收 在 包含 最 年 轻 对 象 的 堆 区 域 中 的 回收 工作 最 为 
频繁 ， 所 以 它 通常 可 以 用 相对 较 少 的 工作 量 回 收 大 量 的 垃圾 。 男 一 方 
面 ， 列 车 算法 没有 在 年 轻 对 象 上 花费 太 多 的 时 间 ， 但 是 它 能 够 有 效 限制 
因 垃 圾 回收 而 造成 的 程序 停顿 时 间 。 因 此 ， 将 这 两 个 策略 合并 的 好 方法 
是 对 年 轻 对 象 使 用 世代 回收 ， 而 一 旦 一 个 对 象 变 得 相当 成 熟 ， 则 将 
它 “ 提 升 ” 到 一 个 由 列车 算法 管理 的 独立 堆 区 中 。 


我 们 把 将 在 一 轮 部 分 回收 中 被 回收 的 对 象 集合 称 为 目标 〈target) 
集 ， 而 将 其 他 对 象 称 为 稳定 (stable) 集 。 在 理想 状态 下 ， 一 个 部 分 回 
收 器 应 该 回收 目标 集中 所 有 无 法 从 根 集 到 达 的 对 象 。 然 而 ， 这 么 做 需要 
跟踪 所 有 的 对 象 ， 而 这 正 是 我 们 首先 要 试图 避免 的 事情 。 实 际 上 ， 部 分 
回收 费 只 是 保守 地 回收 那些 无 法 从 根 集 和 稳定 集 到 达 的 对 象 。 因 为 稳定 
集中 的 一 些 对 象 自 身 也 是 不 可 达 的 ， 我 们 可 能 会 把 目标 集中 一 些 实际 上 
不 存在 从 根 集 开 始 的 路 径 的 对 象 当 成 可 达 对 象 。 


我 们 可 以 修改 7.6.1 节 和 7.6.4 节 中 描述 的 垃圾 回收 右 ， 改 变 “ 根 集 ” 的 
定义 ， 使 之 以 部 分 回收 的 方式 工作 。 现 在 根 集 指 的 不 仅 是 存放 在 寄存 
器 、 栈 和 全 局 变量 中 的 对 象 ， 它 还 包括 所 有 指 回 目 标 集 对 象 的 稳定 集中 
的 对 象 。 从 一 个 目标 对 象 指 问 其 他 目标 对 象 的 引用 按照 以 前 的 方法 进行 
跟踪 ， 以 找到 所 有 的 可 达 对 象 。 我 们 可 以 忽略 所 有 指向 稳定 对 象 的 指 
针 ， 因 为 在 本 轮 部 分 回收 中 这 些 对 象 被 认为 是 可 达 的 。 


为 了 找 出 那些 引用 了 目标 对 象 的 稳定 对 象 ， 我 们 可 以 采用 和 增 量 志 
圾 回收 所 用 技术 类 似 的 方法 。 在 增 量 回收 中 ， 我 们 需要 在 跟 踊 过 程 中 记 
录 所 有 对 从 已 扫描 对 象 到 未 被 访问 对 象 的 引用 的 写 运 算 。 在 这 里 ， 我 们 
需要 记录 下 增 变 者 的 整个 运行 过 程 中 对 从 稳定 对 象 到 目标 对 象 的 引用 的 












































写 运 算 。 只 要 增 变 者 将 一 个 指 回 某 个 目标 对 象 的 引用 保存 到 稳定 对 象 中 
时 ， 我 们 要 么 记录 下 这 个 引用 ， 要 么 记录 下 写 入 的 位 置 。 我 们 把 保存 了 
从 稳定 对 象 到 目标 对 象 的 引用 的 对 象 集合 称 为 被 记忆 集合 (remembered 
set) 。 如 7.7.2 节 中 讨论 的 ， 我 们 可 以 只 记录 下 包含 了 被 写 入 对 象 所 在 的 
卡片 或 页 ， 以 压缩 被 记忆 集合 的 表示 。 


部 分 垃圾 回收 絮 通 第 被 实现 为 拷贝 垃圾 回收 絮 。 通 过 使 用 链表 来 跟 
蹊 可 达 对 象 ， 也 可 以 实现 成 为 非 拷贝 回收 右 。 下 面 描述 的 “世代 "方案 是 
一 个 关于 如 何 将 拷贝 和 部 分 回收 相 结合 的 例子 。 








7.7.4 ”世代 垃圾 回收 


世代 垃圾 回收 (generational garbage collection〉 是 一 种 充分 利用 了 
大 多 数 对 象 * 英 年 早 逝 ”的 特性 的 有 效 方法 。 在 世代 垃圾 回收 中 ， 堆 区 被 
分 成 一 系列 小 的 区 域 。 我 们 将 用 0，1，2，...，n 对 它们 进行 编号 ， 序 号 
越 小 的 区 域 存放 的 对 象 越 年 轻 。 对 象 首先 在 0 区 域 被 创建 。 当 这 个 区 域 
被 填 满 时 ， 它 的 垃圾 被 回收 ， 且 其 中 的 可 达 对 象 被 移 到 1 区 。 现 在 ，0 区 
又 成 为 空 的 ， 我 们 继续 把 新 对 象 分 配 到 这 个 区 域 。 当 0 区 再 次 被 填 满 
[8]， 它 的 垃圾 又 被 回收 ， 且 它 的 可 达 对 象 被 拷贝 到 1 区 ， 与 之 前 被 找 贝 
的 对 象 合 在 一 起 。 这 个 模式 一 直 被 重复 ， 直 到 1 区 也 被 填 满 为 止 。 此 时 
应 对 0 区 和 1 区 应 用 垃圾 回收 。 


一 般 来 说 ， 每 一 轮 垃 圾 回收 都 是 针对 序号 小 于 等 于 东 个 ji 的 区 域 进 
行 的 ， 应 该 将 ij 选择 为 当前 被 填 满 区 域 的 最 高 编号 。 每 当 一 个 对 象 经 历 
了 一 轮回 收 ( 即 它 被 确定 为 可 达 的 ) ， 它 就 从 它 当 前 所 在 区 域 被 提升 到 
下 一 个 较 高 的 区 域 ， 直 到 它 到 达 最 老 的 区 域 ， 即 序号 为 n 的 区 域 。 


使 用 7.7.3 市 中 介绍 的 术语 ， 当 区 域 | 及 更 低 区 域 中 的 垃圾 被 回收 
时 ， 从 0 到 i 的 区 域 组 成 了 目标 集 ， 所 有 序号 大 于 i 的 区 域 组 成 了 稳定 集 。 
为 了 为 各 种 可 能 的 部 分 回收 找到 根 集 ， 我 们 为 每 个 区 域 i 保 持 了 一 个 被 
记忆 集 ， 该 集合 由 指向 区 域 i 中 对 象 且 位 于 大 于 i 的 区 域 中 的 所 有 对 象 组 
在 i 上 激活 的 一 次 部 分 回收 的 根 集 包括 了 区 域 i 及 更 低 区 域 的 被 记忆 



































在 这 个 方案 中 ， 只 要 我 们 对 ij 进行 回收 ， 所 有 序号 小 于 i 的 区 域 也 将 
进行 垃圾 回收 。 有 两 个 原因 促使 我 们 采用 这 个 人 稼 略 : 


1) 因为 较 年 轻 的 世代 往往 包含 较 多 的 世 圾 ， 也 就 更 频 楷 地 被 回 
收 。 所 以 ， 我 们 可 以 将 它们 和 较 老 的 世代 一 起 回收 。 


2) 根据 这 种 策略 ， 我 们 只 需要 记录 从 较 老 世代 指 回 较 新 世代 的 引 
用 。 也 就 是 说 ， 对 最 年 轻 世 代 的 对 象 进行 号 运算 ， 以 及 将 对 象 提升 到 下 
一 世代 时 都 不 需要 更 新 任何 被 记忆 集 。 如 采 我 们 对 某 个 区 域 进行 回收 ， 
但 是 不 回收 某 个 较 年 轻 的 世代 ， 那 么 后 者 将 成 为 稳定 集 的 一 部 分 。 我 们 
将 不 得 不 同时 记录 从 较 年 轻 世 代 指 回 较 年 老 世 代 的 引用 。 


总 而 言 之 ， 这 种 方案 更 频 索 地 回收 较 年 轻 的 世代 ， 并 且 因 为 “对象 
英 年 早 逝 ”， 对 于 这 些 世 代 进 行 垃圾 回收 的 效 费 比特 别 高 。 对 较 老 世代 
的 垃圾 回收 则 要 花 更 多 的 时 间 ， 因 为 它 包 括 了 对 所 有 较 年 轻 世 代 的 回 
收 ， 同 时 它们 包含 的 垃圾 也 相应 减少 。 虽 然 如 此 ， 较 老 世 代 还 是 需要 每 
过 一 段 时 间 进 行 一 次 回收 ， 以 删除 不 可 达 对 象 。 最 老 的 世代 保存 了 最 成 
熟 的 对 象 ， 对 这 些 对 象 的 回收 是 最 昂 贯 的 ， 因 为 它 相当 于 一 次 完整 的 回 
收 。 也 惑 是 资 ， 世 代 回 收 顷 偶尔 也 需要 执行 完整 的 跟踪 步骤 ， 因 此 也 会 
0 0 8 
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尽管 世代 方法 在 处 理 年 轻 对 象 时 非常 高 效 ， 但 它 在 处 理 成 熟 对 象 时 
却 相对 低 效 ， 因 为 每 当 一 个 垃圾 回收 过 程 涉 及 某 个 成 熟 对 象 时 ， 该 对 象 
都 会 被 移动 ， 而 且 它 们 不 太 可 能 变 成 垃圾 。 男 一 种 被 称 为 列车 算法 的 增 
量 式 回收 方法 用 于 改进 对 成 熟 对 象 的 处 理 。 它 可 以 用 来 回收 所 有 的 垃 
圾 。 但 是 更 好 的 方法 是 使 用 世代 方法 来 处 理 年 轻 的 对 象 ， 只 有 当 这 些 对 
象 经 历 了 儿 轮 世代 回收 之 后 仍然 存在 ， 才 将 它们 提升 到 为 一 个 由 列车 算 
法 管理 的 堆 区 。 列 车 算法 的 为 一 个 优点 是 我 们 永远 不 需要 进行 全 面 的 垃 
圾 回收 过 程 ， 而 在 世代 垃圾 回收 中 却 仍然 必须 偶尔 那样 做 。 


为 了 描述 列车 算法 的 动机 ， 我 们 首先 看 一 个 简单 的 例子 。 该 例子 告 
诉 我 们 为 什么 在 世代 方法 中 必须 偶尔 进行 一 轮 全 面 的 垃圾 回收 。 图 7-29 
给 出 了 位 于 两 个 区 域 i 和 j 中 的 两 个 相互 连接 的 对 象 ， 其 中 j>i。 因 为 这 两 
个 对 象 部 有 来 自 其 区 域 之 外 的 指针 ， 呈 对 区 域 或 只 对 区 域 j 进 行 回收 痢 
不 能 回收 这 两 个 对 象 。 然 而 ， 它 们 可 能 实际 上 是 一 个 循环 垃圾 结构 中 的 
一 部 分 ， 没 有 外 部 链接 指 辣 该 垃圾 结构 。 一 般 来 说 ， 这 里 显示 的 对 象 之 

















间 的 “链接 ”可 能 涉及 很 多 对 象 和 一 条 很 长 的 引用 链 。 
区 域 1 





图 7-29 一 个 跨越 区 域 的 可 能 是 循环 垃圾 的 环 状 结构 


在 世代 垃圾 回收 中 ， 我 们 最 终 会 回收 区 域 ， 并 且 因 为 1<j， 我 们 同 





时 还 会 回收 i 区 域 。 那 么 这 个 循环 结构 将 被 完全 包含 在 正在 被 回收 的 堆 
区 中 ， 我 们 就 可 以 确定 它 是 否 真 的 是 垃圾 。 然 而 ， 如 果 我 们 从 没有 进行 
过 一 轮 包 括 了 i 和 j 的 回收 ， 那 么 我 们 就 会 碰 到 循环 垃圾 的 问题 ， 也 就 是 
我 们 在 使 用 引用 计数 进行 垃圾 回收 时 碰 到 的 问题 。 

列车 算法 使 用 固定 大 小 的 被 称 为 车 厢 〈car) 的 区 域 。 当 没有 对 象 
比 磁 盘 块 更 大 时 ， 一 贡 车 厢 可 以 是 一 个 磁盘 块 ， 人 否则 可 以 将 车 厢 的 矿 才 
设 得 更 大 。 但 是 车 厢 的 大 小 一 旦 确定 就 不 再 变化 。 多 节 车 厢 被 组 织 成 列 
车 〈train) 。 一 辆 列车 中 的 车 厢 数 量 没 有 限制 ， 且 列车 的 数量 也 没有 限 
制 。 车 厢 之 间 按 照 词典 顺序 进行 排序 : 首先 以 列车 号 排序 ， 在 同一 列车 
中 则 以 车 厢 呈 排序， 如 图 7-30 所 未 。 


列车 算法 中 的 堆 区 组 织 
列车 算法 有 两 种 回收 垃圾 的 方式 : 


。 在 一 个 增 量 式 垃 圾 回收 步骤 中 ， 按 照 词 典 顺序 排列 的 第 一 节 车 厢 
( 即 尚 存 的 第 一 辆 列车 中 尚 存 的 第 一 市 车 厢 〉 首 先 锌 回收。 因为 我 
们 保留 了 一 个 来 自 该 车 厢 之 外 的 所 有 指针 的 “被 记忆 ?列表 ， 所 以 这 














一 步 类 似 于 世代 算法 中 针对 第 一 个 区 域 的 回收 步 又。 这 里 我 们 确定 
出 没有 任何 引用 的 对 象 ， 以 及 完全 包含 在 这 节 车 厢 里 的 志 圾 循环 。 
该 车 厢 中 的 可 达 对 象 总 是 梓 移 至 其 他 的 茶 个 车 厢 中 ， 因 此 每 个 被 回 
收 过 的 车 厢 都 变 成 空 车 厢 ， 可 以 从 这 辆 列车 中 删除 。 

有 时 ， 第 一 辆 列车 没有 外 部 引用 。 也 就 是 说 ， 没 有 从 根 集 指向 该 列 
车 中 任何 车 厢 的 指针 ， 并 且 种 车厢 中 的 被 记忆 集中 只 有 来 目 本 列 
车 的 其 他 车 厢 的 引用 ， 没 有 来 自 其 他 列车 的 引用 。 在 这 种 情况 下 ， 
该 列车 就 是 一 个 巨大 的 循环 垃圾 集合 ， 我 们 可 以 删除 整 辆 列车 。 


被 记忆 集 


现在 我 们 给 出 列车 算法 的 细节 。 每 节 车 厢 有 一 个 被 记忆 集 ， 它 由 指 
加 该 车 厢 中 对 象 的 引用 组 成 ， 这 些 引 用 来 目 : 


1) 同一 辆 列车 中 序号 较 高 的 车 厢 中 的 对 象 ， 以 及 
2) 序 写 较 局 的 列车 中 的 对 象 。 


此 外 ， 每 辆 列车 有 一 个 被 记忆 集 ， 它 由 来 自 较 高 序号 列车 中 的 引用 
组 成 。 也 就 是 说 ， 一 个 列车 的 被 记忆 集 是 它 内 部 的 所 有 车厢 的 被 记忆 和 集 
的 并 集 ， 但 是 不 包含 列车 内 部 的 引用 。 因 此 ， 可 以 将 车 厢 的 被 记忆 集 划 
分 成 “内 部 ”( 同 一 列车 ) 和 “外 部 ”( 其 他 列车 〉 两 个 部 分 ， 同 时 表示 这 
两 种 不 同类 型 的 被 记忆 集 。 


注意 ， 指 同 这 些 对 象 的 引用 可 以 来 目 各 个 地 方 ， 不 只 和 古来 目 按 字 典 
顺序 排列 的 序号 较 高 的 车 厢 。 然 而 ， 算 法 中 的 两 种 垃圾 回收 过 程 分 别处 
理 第 一 辆 列车 的 第 一 节 车 厢 和 整个 第 一 辆 列车 。 因 此 ， 当 在 垃圾 回收 中 
再 要 使 用 被 记忆 集 的 时 候 ， 已 经 没有 更 早 的 地 方 可 以 有 引用 到 达 被 处 理 
的 车 厢 或 者 列车 。 因 此 记录 下 指 回 较 高 序号 车 厢 的 引用 没有 什么 意义 。 
当然 ， 我 们 必须 认真 、 正 确 地 管理 被 记忆 集 ， 只 要 增 变 者 改变 了 任何 对 
象 中 的 引用 ， 就 需要 相应 地 改变 被 记忆 集 。 


管理 列车 
我 们 的 目标 是 找 出 第 一 辆 列车 中 所 有 非 循环 垃圾 的 对 象 。 此 时 ， 第 


一 辆 列车 要 么 只 包含 了 循环 垃圾 ， 因 此 将 在 下 一 轮 垃圾 回收 时 被 回收 ; 
要 么 其 中 的 垃圾 不 是 循环 的 ， 那 么 它 的 车 厢 就 可 以 被 逐个 回收 。 


























因为 对 一 辆 列车 中 的 车 厢 数 目 没 有 限制 ， 每 当 我 们 需要 更 多 空间 
时 ， 在 原则 上 我 们 可 以 直接 同一 辆 列车 中 加 入 新 的 车 厢 。 但 是 ， 我 们 偶 
尔 也 需要 创建 出 新 的 列车 。 例 如 ， 我 们 可 以 设 定 每 创建 k 个 对 象 之 后 就 
新 建 一 辆 列车 。 也 就 是 交 ， 当 最 后 一 辆 列车 的 最 后 车 厢 中 还 有 足够 的 衬 
间 时 ， 新 创建 的 对 象 一 般 会 被 放置 在 这 节 和 车厢 中 ， 如 采 该 车 厢 中 没有 足 
够 空间 ， 该 对 象 就 会 被 放 到 一 个 即将 被 加 到 最 后 一 个 车 厢 之 后 的 新 车 厢 
nn 


NN 





单 节 车 厢 的 垃圾 回收 


列车 算法 的 核心 是 我 们 如 何在 一 轮 垃圾 回收 中 处 理 第 一 辆 列车 的 第 
一 节 车 厢 。 一 开始 ， 可 达 集 包括 了 该 车 厢 中 被 来 目 根 集 的 引用 指 加 的 对 
象 ， 以 及 被 该 车 厢 的 被 记忆 集中 的 引用 指 同 的 对 象 。 然 后 ， 我 们 像 标 
记 -清扫 式 回 收 绒 那 样 扫描 这 些 对 象 ， 但 是 不 会 扫描 任何 可 达 的 位 于 科 
回收 车 厢 之 外 的 对 象 。 在 这 次 跟踪 之 后 ， 该 车 厢 中 的 某 些 对 象 可 能 被 确 
定 为 垃圾 。 因 为 无 论 如何 整 节 车 厢 都 将 消失 ， 因 此 不 必 回 收 它 们 的 罕 
间 。 


然而 ， 访 车厢 中 很 可 能 还 有 一 些 可 达 对 象 ， 这 些 对 象 必须 被 移 到 其 
他 地 方 。 移 动 一 个 对 象 的 规则 如 下 : 


。 如 采 被 记忆 集中 有 一 个 来 目 其 他 列车 的 引用 《该 列车 的 序号 高 于 被 
回收 车 厢 所 在 列车 的 序号 ) ， 那 么 将 这 个 对 象 移 到 这 些 列 车 中 的 茶 
一 辆 中 。 如 果 在 发 出 一 个 引用 的 某 辆 列车 中 能 够 找到 足够 的 空间 ， 
就 将 该 对 象 移 动 这 辆 列车 的 茶 节 车 厢 中 。 如 果 找 不 到 空间 ， 它 就 进 
入 一 个 新 的 、 最 末端 的 车 厢 。 

如 果 没 有 来 自 其 他 列车 的 引用 ， 但 是 存在 来 自 根 集 或 第 一 辆 列车 的 
引用 ， 那 么 咒 将 此 对 象 移 到 同一 列车 中 的 其 他 车 厢 中 。 如 条 没有 足 
够 空间 ， 就 创建 一 个 新 的 车 厅 放 到 列车 的 末端 。 如 果 有 可 能 ， 挑 选 
人 
相 中 。 


和 
相 。 


恐 怪 模式 

















上 面 的 规则 还 存在 一 个 问题 。 为 了 保证 所 有 的 垃圾 最 终 都 会 被 回 
收 ， 我 们 需要 保证 每 辆 列车 迟早 会 变 成 第 一 辆 列车 ， 并 且 如 果 这 辆 列车 
不 是 循环 坟 圾 ， 那 么 此 列车 中 的 所 有 和 车厢 最 后 都 会 被 删除 ， 且 该 列车 每 
次 至 少 会 减少 一 布 车 厢 。 然 而 ， 根 据 上 面 的 第 二 个 规则 ， 回 收 第 一 辆 列 
车 的 第 一 节 车 厢 时 可 能 会 产生 一 个 位 于 最 后 的 新 车 厢 。 这 个 过 程 不 会 创 
建 出 两 个 或 更 多 的 新 车 厢 ， 因 为 第 一 市 车 厢 中 的 所 有 对 象 一 定 能 够 被 一 
起 放 到 最 后 的 新 车 厢 中 。 然 而 ， 是 否 会 出 现 这 种 情况 ， 一 辆 列车 的 每 一 
个 回收 步骤 都 产生 一 新 车 厢 ， 以 致 于 我 们 永远 不 能 回收 完 这 辆 列车 ， 
结果 永远 不 能 继续 处 理 男 一 辆 列车 ? 


遗憾 的 是 ， 这 种 情况 是 可 能 出 现 的 。 如 果 我 们 有 一 个 大 型 的 、 循 环 
的 非 垃圾 的 结构 ， 并 且 增 变 者 改变 引用 的 方式 使 得 我 们 在 回收 一 市 车 彩 
时 一 直 没 有 在 被 记忆 集中 看 到 任何 来 自 较 高 序号 列车 的 引用 ， 束 会 出 现 
上 述 问 题 。 只 要 在 回收 一 节 车 厢 时 有 一 个 对 象 从 这 个 列车 中 移出 ， 问 题 
就 解决 了 ， 因 为 没有 新 的 对 象 会 被 加 入 到 第 一 辆 列车 中 ， 所 以 第 一 辆 列 
车 中 的 所 有 对 象 最 终 一 定 会 被 全 部 移出 。 然 而 ， 有 可 能 在 茶 个 阶段 我 们 
根本 回收 不 到 任何 垃圾 ， 这 样 就 会 存在 出 现 循环 的 风险 : 有 可 能 一 直 只 
对 当前 的 第 一 辆 列车 进行 垃圾 回收 。 


为 了 避免 出 现 这 个 问题 ， 只 要 我 们 遇 到 一 个 无 效 〈futile〉 垃 圾 回 
收 ， 我 们 就 需要 改变 做 法 。 所 谓 无 效 垃 圾 回收 是 指 ， 在 回收 一 节 车 厢 时 
没有 一 个 对 象 可 以 作为 垃圾 删除 或 者 被 移动 到 为 一 辆 列车 中 。 在 这 
种 < 杷 居 模 式 * 下 ， 我 们 做 出 两 个 变化 : 


1) 当 指 向 第 一 辆 列车 中 的 茶 个 对 象 的 茶 个 引用 被 履 写 时 ， 我 们 将 
这 个 引用 保留 为 根 集 的 一 个 新 成 员 。 


2) 在 进行 垃圾 回收 时 ， 如 琳 第 一 市 车 厢 中 的 一 个 对 象 有 来 目 根 集 
的 引用 ， 其 中 包括 在 第 1 点 中 设置 的 哑 引 用 ， 那 么 即使 该 对 象 没 有 来 目 
其 他 列车 的 引用 ， 我 们 还 是 将 它 移 至 为 一 辆 列车 。 只 要 不 是 移 到 第 一 辆 
列车 ， 移 到 哪 辆 列车 并 不 重要 。 


按照 这 个 方法 ， 如 果 有 一 个 指 问 第 一 辆 列车 的 对 象 的 引用 来 自 该 列 
车 之 外 ， 在 我 们 回收 每 节 车 厢 时 都 会 考虑 这 些 引用 ， 并 且 最 终 必 然 会 有 
一 些 对 象 从 那 辆 列车 移 除 。 然 后 ， 我 们 惑 可 以 脱离 臣 慨 模式 ， 继 续 正常 
处 理 ， 确 保 当 前 的 第 一 辆 列车 一 定 要 比 以 前 小 。 


























7.7.6 7.7 节 的 练习 


练习 7.7.1: 假设 图 7-20 中 的 对 象 网络 由 一 个 增 量 式 算法 进行 管理 。 
该 算法 和 Baker 算 法 一 样 使 用 四 个 列表 Unreached、Unscanned、Scanned 
和 Free。 更 明确 地 说 ， 列 表 Unscanned 按 照 队 列 进行 管理 。 当 扫描 一 个 
对 象 时 ， 如 果 有 多 个 对 象 要 被 放 进 这 个 列表 中 ， 我 们 按照 字母 顺序 加 入 
它们 。 同 时 假设 我 们 使 用 写 关 卡 来 保证 没有 可 达 对 象 被 当 作 垃圾 。 在 开 
始 时 ，A 和 B 在 Unscanned 列 表 中 ， 假 设 下 列 事件 发 生 : 

1) A 被 扫描 。 

2) 指针 A -DD 被 窗 写 为 A H。 

3) B 被 扫 摘 。 

4) D 被 扫描 。 

5) 指针 BC 被 宪 写 为 BI。 


假设 没有 更 多 的 指针 被 履 写 ， 模 拟 整 个 增 量 式 垃圾 回收 过 程 。 哪 些 
对 象 是 垃圾 ? 哪些 对 象 被 放 在 了 列表 Free 中 ? 


练习 7.7.2: 按照 如 下 假设 重复 练习 7.7.1: 

1) 事件 (2) 和 (5) 的 顺序 互 换 。 

2) 事件 (2) 和 (5) 在 (1) 、 (3) 和 (4) 之 前 发 生 。 

练习 7.7.3: 假设 堆 区 恰好 由 图 7-30 中 显示 的 三 辆 列车 〈 共 九 节 车 


厢 ) 组 成 〈 即 忽略 其 中 的 省 略 号 ) 。 有 来 自 车 厢 12、23 和 32 的 引用 指向 
车 厢 11 中 的 对 象 o。 当 我 们 对 车 厢 11 进 行 垃圾 回收 ， 对 象 o 最 后 在 什么 地 
方 ? 








练习 7.7.4: 在 下 列 情况 下 重复 练习 7.7.3。 假 设 对 象 o 
1) 只 有 来 自 车 厢 22 和 31 的 引用 。 


2) 没有 来 自 车 厢 11 之 外 的 指针 。 


练习 7.7.5: 假设 堆 区 恰好 由 图 7-30 中 显示 的 三 辆 列车 〈 共 九 节 车 
厢 ) 组 成 〈《 即 急 略 其 中 的 省 略 号 ) 。 当 前 我 们 处 于 灵 惰 模式 。 和 车厢 11 中 
的 对 象 o 只 有 一 个 来 自 车 厢 12 中 的 对 象 o 的 引用 。 这 个 引用 被 覆 写 了 。 
当 我 们 对 车 厢 11 进 行 垃 圾 回收 时 ，oi 会 发 生 什 么 事情 ? 


7.8 ”垃圾 回收 中 的 高 级 论题 


我 们 简要 地 介绍 下 面 的 四 个 论题 ， 结 束 我 们 对 垃圾 回收 的 研究 : 
1) 并 行 环境 下 的 垃圾 回收 。 

2) 对 象 的 部 分 重 定位 。 

3) 针对 类 型 不 安全 的 语言 的 垃圾 回收 。 

4) 程序 员 控 制 的 垃圾 回收 和 目 动 垃圾 回收 之 间 的 交互 。 








7.8.1 并 行 和 并 发 垃圾 回收 


当 将 垃圾 回收 应 用 到 并 发 或 多 处 理 器 机 器 上 运行 的 应 用 程序 时 ， 这 
一 工作 变 得 更 具有 挑战 性 。 对 于 服务 器 应 用 ， 在 同一 时 刻 运 行 成 干 上 万 
个 线程 是 第 有 的 事情 ; 其 中 的 每 个 线程 都 是 一 个 增 变 者 。 堆 区 通常 会 包 
含 几 千 兆 的 存储 。 


可 处 理 大 规模 系统 的 垃圾 回收 算法 必须 充分 利用 系统 的 多 个 处 理 
器 。 如 果 一 个 垃圾 回收 器 使 用 多 个 线程 ， 我 们 束 称 其 为 并 行 的 
Cparallel) 。 如 果 回 收 器 和 增 变 者 同时 和 运行， 就 说 它 是 并 发 的 


(concurrent) 。 


我 们 将 描述 一 个 并 行 的 且 基 本 上 并 发 的 垃圾 回收 器 。 它 使 用 一 个 并 
发 且 并 行 的 阶段 来 完成 大 部 分 的 跟踪 工作 ， 然 后 执行 一 个 全 面 停顿 式 的 
步骤 来 保证 找到 所 有 的 可 达 对 象 并 回收 存储 空间 。 这 个 算法 在 本 质 上 并 
没有 引入 新 的 有 关 垃 圾 回收 的 基本 概念 ， 它 说 明了 我 们 如 何 将 曾经 描述 
的 思想 组 合 起 来 ， 创 造 出 一 个 解决 并 发 、 并 行 的 垃圾 回收 问题 的 完整 解 
决 方案 。 然 而 ， 并 行 执 行 的 本 质 会 带 来 一 些 新 的 实现 问题 。 我 们 将 讨论 
调 多 个 线程 。 


为 了 理解 这 个 算法 的 设计 思想 ， 我 们 必须 牢记 这 个 问题 的 规模 。 即 











使 一 个 并 行 应 用 的 根 集 也 要 比 普通 的 应 用 大 很 多 ， 它 由 每 个 线程 的 栈 、 
寄存 器 集 和 全 局 可 访问 变量 组 成 。 堆 区 存储 的 数量 也 非常 大 ， 可 达 数 据 
的 数量 同样 也 很 大 。 增 变 过 程 友 生 速 率 也 比 一 般 的 应 用 高 很 多 。 


为 了 减少 停顿 时 间 ， 我 们 可 以 采用 原本 为 增 量 式 分 析 而 设计 的 基本 
思想 ， 使 垃圾 回收 和 状态 增 变 过 程 重 三 执行 。 请 回顾 一 下 ， 正 如 7.7 节 
所 讨论 的 ， 一 个 增 量 式 分析 完 成 下 列 三 个 步 又 : 


1) 找到 根 集 。 这 个 步骤 通常 是 以 原 语 方式 完成 的 ， 即 增 变 者 暂时 


一 /一 


停止 运行 。 


2) 增 变 者 的 执行 和 对 可 达 对 象 的 跟踪 交 丛 进行 。 在 这 个 阶段 ， 每 
次 有 一 个 增 变 者 写 入 一 个 从 已 扫描 对 象 指 癌 未 被 访问 对 象 的 引用 时 ， 我 
们 都 会 记录 这 个 引用 。 如 7.7.2 节 中 讨论 的 ， 我 们 可 以 选择 多 种 粒度 来 记 
录 这 些 引 用 。 在 本 市 中 ,我们 将 假定 使 用 基于 卡片 的 方案 。 我 们 将 堆 区 
分 成 大 干 被 称 为 “卡片 ”的 区 段 ， 并 维护 一 个 位 映射 来 指明 哪个 卡片 是 脏 
的 ( 即 其 中 有 一 个 或 多 个 引用 被 宪 写 ) 。 


3) 再 次 暂停 增 变 者 的 运行 ， 重 新 扫 摘 所 有 可 能 保存 了 指 问 未 被 访 
问 对 象 的 引用 的 卡片。 


对 于 一 个 大 型 多 线程 应 用 ， 从 根 集 到 达 的 对 象 的 集合 可 能 非常 大 。 
终止 所 有 增 变 者 的 执行 ， 然 后 花费 很 多 时 间 和 空间 去 访问 所 有 这 样 的 对 
象 是 不 可 行 的 。 同 时 ， 因 为 堆 的 规模 巨大 ， 并 且 增 变 线程 数量 巨大 ， 在 
将 所 有 对 象 扫描 一 次 之 后 ， 很 多 卡片 都 需要 重新 扫描 。 此 时 ， 值 得 推荐 
的 做 法 是 并 行 地 扫描 其 中 的 东 些 卡片 ， 同 时 允许 增 变 者 继续 并 发 执行 。 


为 了 并 行 地 实现 上 面 第 (2) 步 中 的 跟踪 过 程 ， 我 们 将 使 用 多 个 垃 
圾 回收 线程 。 这 些 线程 和 各 个 增 变 者 线程 并 发 地 运行 ， 以 跟 踩 得 到 大 部 
分 可 达 对 象 。 然 后 ， 为 了 实现 第 〈3) 步 ， 我 们 暂停 执行 各 个 增 变 者 ， 
使 用 并 行 线程 来 保证 找到 所 有 的 可 达 对 象 。 


完成 第 (2) 步 中 跟 踩 过 程 的 方法 是 让 每 个 增 变 者 线程 在 完成 其 目 
喘 工 作 的 同时 执行 部 分 垃圾 回收 工作 。 另 外 ， 我 们 也 使 用 一 些 专门 用 于 
回收 下 圾 的 线程 。 一 旦 垃圾 回收 过 程 启动 ， 只 要 增 变 者 线程 执行 了 某 个 
内 存 分 配 操作 ， 它 同时 也 会 执行 一 些 跟 踪 计 算 。 只 有 当 计 算 机 中 有 空闲 
的 时 钟 周期 时 ， 专 用 的 垃圾 回收 线程 才 会 投入 使 用 。 和 增 量 式 分 析 一 
样 ， 只 要 增 变 者 写 入 了 一 个 从 已 扫描 对 象 指 向 未 被 访问 对 象 的 引用 ， 存 























放 这 个 引用 的 卡片 就 被 标记 为 脏 的 ， 需 要 重新 扫描 。 
下 面 给 出 一 个 并 行 、 并 发 垃圾 回收 算法 的 大 概 描述 : 


1) 扫描 每 个 增 变 者 线程 的 根 集 ， 将 所 有 可 以 从 根 集中 直接 到 达 的 
对 象 设 为 待 扫描 状态 。 完 成 这 一 步 的 最 简单 的 增 量 式 做 法 是 等 竺 一 个 增 
变 者 线程 调用 内 存 管 理 器 ， 如 果 那 时 它 的 根 集 还 没有 被 扫描 ， 就 让 它 扫 
描 自 己 的 根 集 。 如 果 所 有 其 他 跟踪 工作 都 已 经 完成 ， 而 某 个 增 变 者 线程 
还 没有 调用 内 存 分 配 函 数 ， 那 么 必须 和 暂停 这 个 线程 ， 扫 描 它 的 根 集 。 


2) 扫描 处 于 待 扫描 状态 的 对 象 。 为 了 支持 并 行 计 算 ， 我 们 使 用 一 
个 由 固定 大 小 的 工作 包 (work packet) 组 成 的 工作 队列 。 每 个 工作 包 保 
存 了 一 些 待 扫 描 对 象 。 当 发 现 竺 扫描 对 象 时 ， 它 们 就 被 放置 到 工作 包 
中 。 等 竺 工作 的 线程 将 从 队列 中 取出 这 些 工作 包 ， 并 跟 踩 其 中 的 待 扫描 
对 象 。 这 种 策略 允许 在 跟踪 过 程 中 把 工作 量 平 均 分 配给 各 个 工作 线程 。 
如 果 系 统 用 完了 存储 空间 ， 使 得 我 们 无 法 找到 创建 这 些 工作 包 所 需 的 空 
间 ， 束 直接 为 保存 这 些 对 象 的 卡片 加 上 标记 ， 使 它们 将 在 以 后 被 扫描 。 
0 的 ， 因 为 存放 卡片 标记 的 位 数组 已 经 预先 分 配 
本 


3) 扫描 脏 卡片 中 的 对 象 。 当 工作 队列 中 不 再 有 待 扫描 对 象 ， 并 且 
所 有 线程 的 根 集 都 已 经 被 扫描 过 之 后 ， 我 们 重新 扫描 这 些 卡 片 以 寻找 可 
达 对 象 。 只 要 增 变 者 继续 执行 ， 脏 卡片 就 会 不 断 产生 。 因 此 ， 我 们 需要 
依照 茶 种 标准 来 停止 跟 踩 过程 。 比 如 只 人 允许 卡片 被 再 次 扫描 一 次 或 固定 
的 次 数 ， 或 者 当 未 完成 扫描 的 卡片 数量 减少 到 东 个 装 值 时 停 上 上 跟踪。 这 
么 做 的 结果 是 使 得 并 行 和 并 发 步骤 通常 会 在 完成 全 部 跟踪 工作 之 前 就 售 
止 。 剩 下 的 工作 将 在 下 面 介 绍 的 最 后 一 步 中 完成 。 


4) 最 后 一 步 保 证 所 有 的 可 达 对 象 痢 被 标记 为 已 被 访问 的 。 随 着 所 
有 增 变 者 停止 执行 ， 使 用 系统 中 的 所 有 人 处理 器 就 可 以 快速 找到 所 有 线程 
的 根 集 。 因 为 大 部 分 可 达 对 象 已 经 被 跟踪 确定 ， 预 计 只 有 少量 的 对 象 会 
被 放 在 待 扫描 状态 中 。 所 有 的 线程 都 参与 了 对 其 余 可 达 对 象 的 跟踪 和 对 
所 有 卡片 的 重新 扫描 。 


我 们 必须 控制 启动 跟 踩 过 程 的 频率 ， 这 很 重要 。 跟 踩 步 又 束 像 是 一 
场 赛 跑 。 增 变 者 创建 出 必须 被 扫描 的 新 对 象 和 新 引用 ， 而 跟踪 过 程 则 试 
图 扫描 所 有 可 达 对 象 ， 并 重新 扫描 同时 产生 的 脏 卡 片 。 在 需要 进行 垃圾 
回收 之 前 过 分 频繁 地 局 动 跟踪 过 程 是 没有 必要 的 ， 因 为 这 样 做 将 会 增加 
































漂浮 垃圾 的 数量 。 男 一 方面 ， 我 们 又 不 能 等 到 存储 耗 尽 时 才 开 始 跟 踊 过 
程 。 因 为 这 时 增 变 者 将 不 能 继续 运行 ， 此 时 的 情况 就 退化 为 使 用 全 面 停 
顿 式 回收 绒 的 情形 。 因 此 ， 算 法 必须 适当 地 选择 局 动 回收 的 时 机 和 跟踪 
的 频 紊 。 对 前 面 的 各 轮 垃圾 回收 中 的 对 象 增 变速 率 的 估算 可 以 帮助 我 们 
0 
整 跟踪 频 : So 





7.8.2 ”部 分 对 象 重新 定位 


束 像 从 7.6.4 市 开始 讨论 的 ， 找 贝 或 压 绚 回 收费 的 优势 在 于 消除 肆 
片 。 然 而 ， 这 些 回收 喜 需 要 不 小 的 开销 。 压 缩 回收 器 需要 在 垃圾 回收 结 
束 时 移动 所 有 的 对 象 并 更 新 所 有 的 引用 。 找 贝 回收 顷 在 跟 踩 过 程 中 就 找 
出 可 达 对 象 的 位 置 。 如 果 跟 踪 及 用 增 量 式 执 行 方式 ， 我 们 要 么 对 增 变 者 
的 每 个 引用 进行 转换 ， 要 么 到 最 后 才 移动 所 有 的 对 象 并 更 新 它们 的 引 
用 。 这 两 种 做 法 都 是 比较 帅 贯 的 ， 对 大 型 堆 区 来 次 尤其 如 此 。 


我 们 可 以 改 用 一 个 找 贝 世代 垃圾 回收 器 。 它 在 回收 年 轻 对 象 并 减少 
碎 拨 方面 很 有 效 ， 但 是 在 回收 成 熟 对 象 时 比较 昂贵 。 我 们 可 以 使 用 列车 
算法 来 限制 每 次 分 析 时 处 理 的 成 熟 数据 的 数量 。 然 而 ， 列 车 算法 的 代价 
和 每 个 区 域 的 被 记忆 集 的 大 小 相关 。 


有 一 种 混合 型 的 回收 方案 ， 它 使 用 并 友 跟 踊 来 回收 所 有 不 可 达 对 
象 ， 同 时 只 移动 部 分 对 象 。 这 种 方法 减少 了 雁 片 ， 又 不 会 因为 在 每 个 回 
收 循环 中 进行 重新 定位 而 引起 额外 的 开销 。 

1) 在 跟踪 开始 之 前 ， 选 择 将 被 清空 的 一 部 分 堆 区 。 

2) 当 标 记 可 达 对 象 时 ， 记 住所 有 指向 指定 区 域内 的 对 象 的 引用 。 


, 3) 当 跟 踪 完 成 时 ， 并 行 地 清扫 存储 空间 以 回收 被 不 可 达 对 象 占 用 
空间 。 
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JJ 引用 

















7.8.3 ”类 型 不 安全 的 语言 的 保守 垃圾 回收 


如 7.5.1 节 中 讨论 的 ， 我 们 不 可 能 构造 出 一 个 可 以 处 理 所 有 C 和 
C++ 程序 的 垃圾 回收 器 。 因 为 我 们 总 是 可 以 通过 算术 运算 来 计算 地 址 ， 
所 以 在 C 和 C++ 中 ， 没 有 任何 内 存 位 置 可 被 认为 是 不 可 达 的 。 然 而 ， 很 
多 C 或 C++ 程序 从 不 按照 这 种 方式 随意 地 构造 地 址 。 已 经 证 明 ， 人 们 可 
以 为 这 一 类 程序 构造 出 一 种 保守 的 垃圾 回收 器 《也 就 是 不 一 定 回收 所 有 
垃圾 的 回收 需 ) ， 在 实践 中 它 能 够 很 好 地 完成 任务 。 


保守 的 垃圾 回收 颖 假定 我 们 不 可 以 随意 构造 出 一 个 地 址 ， 或 者 在 没 
有 指向 某 已 分 配 存储 块 中 某 处 的 地 址 的 情况 下 得 到 该 存储 块 的 地 址 。 我 
们 可 以 在 程序 中 找 出 所 有 满足 这 一 假设 的 垃圾 。 方 法 是 ， 对 于 在 任意 可 
达 存 储 区 域 中 找到 的 一 个 二 进 制 位 模式 ， 如 果 该 模式 可 以 被 构造 成 一 个 
内 存 位 置 ， 我 们 就 认为 它 是 一 个 有 效 地 址 。 这 种 方案 可 能 会 把 有 些 数 据 
普 当 作 地 址 。 然 而 ， 这 么 做 是 正确 的 ， 因 为 这 只 会 使 得 垃圾 回收 需 保 守 
地 回收 垃圾 ， 留 下 的 数据 包含 了 所 有 必要 的 数据 。 


对 象 重 定位 需要 更 新 所 有 指向 旧地 址 的 引用 ， 使 之 指向 新 地 址 ， 因 
此 它 和 保守 的 坟 圾 回收 方法 是 不 兼容 的 。 因 为 保守 的 垃圾 回收 器 并 不 能 
确认 茶 个 位 模式 是 人 否 真 的 指 回 菜 个 实际 地 址 ， 所 以 它 不 能 修改 这 些 模式 
并 使 之 指向 新 的 地 址 。 


下 面 是 一 个 保守 的 垃圾 回收 器 的 工作 方式 。 首 先 修改 内 存 管理 器 ， 
使 之 为 所 有 已 分 配 内 存 块 保存 一 个 数据 映射 (data map) 。 这 个 映射 使 
我 们 很 容易 地 找到 一 个 内 存 块 的 起 止 位 置 。 这 两 个 起 止 位 置 跨越 了 多 个 
地 址 。 跟 踩 过 程 开始 时 ， 首 先 扫 描 程 序 的 根 集 ， 找 出 所 有 看 起 来 像 内 存 
位 置 的 位 模式 ， 此 时 我 们 不 考虑 它 的 类 型 。 通 过 在 数据 映射 中 碍 找 这 些 
可 能 的 地 址 ， 我 们 可 以 找 出 所 有 可 能 通过 这 些 位 模式 到 达 的 内 存 块 的 开 
始 位 置 ， 并 将 它们 置 为 竺 扫描 状态 。 然 后 ， 我 们 扫描 所 有 待 扫 描 的 内 存 
块 ， 找 出 更 多 《很 可 能 ) 可 达 的 内 存世 ， 并 且 将 它们 放 入 工作 列表 。 重 
复 扫 描 过 程 ， 直 到 工作 列表 为 空 。 在 完成 跟踪 工作 之 后 ， 我 们 使 用 上 述 
数据 映 冉 来 清扫 整个 堆 区 ， 定 位 并 释放 所 有 不 可 达 的 内 存 块 。 






































7.8.4” 弱 引用 


有 时 候 ， 虽 然 程 序 员 使 用 了 带 有 垃圾 回收 机 制 的 语言 ， 但 是 仍然 硕 
望 目 己 管理 内 存 ， 或 者 管理 部 分 内 存 。 也 就 是 说 ， 尽 管 仍 然 存在 一 些 引 
用 指向 某 些 对 象 ， 但 程序 员 知 道 这些 对 象 不 会 再 被 访问 。 一 个 来 自 编译 
的 例子 可 以 说 明 这 一 问题 。 


我 们 已 经 看 到 ， 词 法 分 析 咒 通常 会 管理 一 个 符号 表 ， 为 它 碰 到 
J 每 个 标识 符 创建 一 个 对 象 。 比 如 ， 这 些 对 象 可 能 作为 词法 值 被 附加 于 
语法 分 析 树 中 代表 这 些 标 识 符 的 叶子 结 点 上 。 然 而 ， 以 这 些 标识 符 的 字 
符 串 作为 键 值 构造 一 个 散 列 表 有 助 于 对 这 些 对 象 进行 定位 。 这 个 散 列 表 
可 以 在 词法 分 析 器 碰 到 一 个 标识 符 词 法 单元 时 更 容易 找到 对 应 的 对 象 。 


当 纺 译 顺 扫描 完 标识 符 I 的 作用 域 时 ，I 的 符 吕 表 对 象 不 再 有 任何 来 
目 语法 分 析 树 的 引用 ， 也 没有 来 目 可 能 被 编译 器 使 用 的 其 他 中 间 结 构 的 
引用 。 然 而 ， 在 散 列 表 中 仍然 存在 一 个 指 问 这 个 对 象 的 引用 。 因 为 散 列 
表 是 编译 器 的 根 集 的 一 部 分 ， 所 以 这 个 对 象 不 能 作为 世 圾 被 回收 。 如 果 
倍 到 了 劝 一 个 词 系 和 I 相 同 的 标识 符 ， 编 诺 器 就 会 发 现 I 已 经 过 时 了 ， 指 
回 I 的 对 象 的 引用 将 被 删除 。 然 而 ， 如 条 没有 遇 到 词素 相同 的 其 他 标识 
nt 
是 


如 果 例 子 7.17 中 提出 的 问题 很 重要 ， 那 么 编译 器 的 作者 可 以 设法 在 
标识 符 的 作用 域 一 结束 时 就 在 散 列 表 中 删除 对 相应 对 象 的 所 有 引用 。 然 
而 ， 一 种 被 称 为 弱 引 用 (weak reference) 的 技术 支持 程序 员 依 靠 自 动 垃 
圾 回收 来 解雇 问题 ， 并 且 不 会 因为 那些 实际 不 再 使 用 的 可 达 对 象 而 给 堆 
区 存储 带 来 负担 。 在 这 样 的 系统 中 ， 人 允许 将 某 些 引用 声明 为 * 弱 ”引用 。 
弱 引 用 的 一 个 例子 是 我 们 刚刚 讨论 的 散 列 表 中 的 所 有 引用 。 当 垃圾 回收 
器 扫描 一 个 对 象 时 ， 它 不 会 治 着 该 对 象 内 的 弱 引 用 前 进 ， 也 不 会 将 它们 
指 问 的 对 象 设 置 为 可 达 的 。 当 然 ， 如 果 男 有 一 个 不 弱 的 引用 指 癌 这 一 个 
对 象 ， 这 个 对 象 可 能 仍然 是 可 达 的 。 














7.8.5 7.8 节 的 练习 


! 练习 7.8.1: 在 7.8.3 节 中 ， 我 们 说 如 果 一 个 C 语 言 程序 只 会 在 已 存 
在 某 个 指向 某 存 储 块 中 某 个 位 置 的 地 址 时 构造 出 指向 这 块 内 存 中 某 个 位 
置 的 地 址 ， 我 们 就 可 以 对 这 个 程序 进行 垃圾 回收 。 因 此 我 们 将 形 如 
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的 代码 排除 在 外 ， 因 为 即使 没有 指针 指 癌 某 个 存储 块 ，p 仍 然 可 能 碰巧 
指向 该 存储 块 。 男 一 方面 ， 对 于 上 面 的 代码 ， 更 可 能 发 生 的 情况 是 p 什 
么 地 方 都 不 指 ， 执 行 那个 代码 会 引起 一 个 内 存 分 段 错误 。 然 而 ， 用 C 语 
言 可 能 写 出 一 段 代码 ， 使 得 一 个 像 p 这 样 的 变量 一 定 指 疝 茶 个 存储 块 ， 
有 没有 其 他 指针 同时 指向 该 存储 块 。 写 出 一 个 这 样 的 程序 。 





7.9 第 7 童 总 结 


运行 时 刻 组 织 。 为 了 实现 源 语言 中 的 抽象 概念 ， 编 译 占 与 操作 系统 
及 目标 机 器 协同 ， 创 建 并 管理 了 一 个 运行 时 刻 环 境 。 该 运行 时 刻 环 
境 有 一 个 静态 数据 区 ， 用 于 存放 对 象 代码 和 在 编译 时 刻 创建 的 静态 
数据 对 象 。 同 时 它 还 有 动态 的 栈 区 和 堆 区 ， 用 来 管理 在 目标 代码 执 
行 时 创建 和 销毁 的 对 象 。 

控制 栈 。 过 程 调用 和 返回 通常 由 称 为 控制 栈 的 运行 时 刻 栈 管理 。 我 
们 可 以 使 用 栈 结构 的 原因 是 过 程 调用 《或 者 说 活动 ) 在 时 间 上 是 般 
也 就 是 说 ， 如 果 p 调 用 gd， 那么 q 的 活动 加 怠 套 在 p 的 活动 之 


栈 分 配 。 对 于 那些 允许 或 要 求 局 部 变量 在 它们 的 过 程 结 束 之 后 就 不 
可 访问 的 语言 而 言 ， 局 部 变量 的 存储 空间 可 以 在 运行 时 刻 栈 中 分 

配 。 对 于 这 样 的 语言 ， 每 一 个 活跃 的 活动 都 在 控制 栈 中 有 一 个 活动 
记录 《或 者 说 帧 ) 。 活 动 树 的 根 结 点 位 于 栈 底 ， 而 栈 中 的 全 部 活动 
记录 对 应 于 活动 树 中 到 达 当 前 控制 所 在 活动 的 路 径 。 当 前 活动 的 记 
录 位 于 栈 项 。 

访问 栈 中 的 非 局 部 数据 。 像 C 这 样 的 语言 不 文 持 睦 套 的 过 程 声明 ， 

因此 一 个 变量 的 位 置 要 么 是 全 局 的 ， 要 么 可 以 在 运行 时 刻 栈 顶 的 活 
动 记录 中 找到 。 对 于 市 有 骸 套 过 程 的 语言 而 言 ， 我 们 可 以 通过 访问 
链 来 访问 栈 中 的 非 局 部 数据 。 访 问 链 是 加 在 各 个 活动 记录 中 的 指 

针 。 可 以 顺 着 访问 链 组 成 的 链 路 到 达 正 确 的 活动 记录 ， 从 而 找到 期 
待 的 非 局 部 数据 。 显 示 表 是 一 个 和 访问 链 联合 使 用 的 辅助 数组 ， 它 
提供 了 一 个 不 需要 使 用 访问 链 链 路 的 高 效 捷径 。 

堆 管理 。 堆 是 用 来 存放 生命 周期 不 确定 的 ， 或 者 可 以 生存 到 被 明确 
删除 时 刻 的 数据 的 存储 区 域 。 存 储 管理 器 分 配 和 回收 堆 区 中 的 空 

间 。 垃 圾 回收 在 堆 区 中 找 出 不 再 被 使 用 的 空间 ， 这 些 空间 可 以 回收 
并 用 于 存放 其 他 数据 项 。 对 于 要 求 垃圾 回收 的 语言 ， 垃 圾 回收 旨 是 
存储 管理 器 的 一 个 重要 子 系统 。 

利用 局 部 性 。 通 过 更 好 地 利用 存储 的 层次 结构 ， 存 储 管理 器 可 以 影 
啊 程 序 的 运行 时 间 。 访 问 存储 的 不 同 区 域 所 花 的 时 间 可 能 从 几 纳 秒 
到 几 军 秒 不 等 。 幸 运 的 是 ， 大 部 分 程序 将 它们 的 大 部 分 时 间 用 于 执 
行 相对 较 小 的 一 部 分 代码 ， 并 且 此 时 只 会 访问 一 小 部 分 数据 。 如 果 
一 个 程序 很 可 能 在 短期 内 再 次 访问 刚刚 访问 过 的 存储 位 置 ， 该 程序 
束 具 有 时 间 局 部 性 。 如 果 一 个 程序 很 可 能 访问 刚刚 访问 的 存储 区 域 









































附近 的 位 置 ， 该 程序 就 具有 空间 局 部 性 。 

减少 碎片 。 随 着 程序 分 配 和 回收 存储 ， 堆 区 可 能 会 变 得 破碎 ， 或 者 
说 被 分 割 成 大 量 细小 且 不 连续 的 空 闪 空间 (或 称 为 “窗口 ?) 。best- 
fit 策 略 (分 配 能 够 满足 空间 请 求 的 最 小 可 用 “窗口 ?) 经 实践 证 明 是 
有 效 的 。 尽 管 best-fit 策 略 提高 了 空间 利用 率 ， 但 对 于 空间 局 部 性 而 
i 
减少 碎片 。 

人 工 回 收 。 人 工 存 储 管理 有 两 个 常见 的 问题 ， 没 有 删除 那些 不 可 能 
再 被 引用 的 数据 ， 这 称 为 内 存 泄漏 错误 ; 引用 已 经 被 删除 的 数据 ， 
这 称 为 悬空 指针 引用 错误 。 

可 达 性 。 垃 圾 就 是 不 能 被 引用 或 者 说 到 达 的 数据 。 有 两 种 寻找 不 可 
达 对 象 的 基本 方法 : 要 么 截获 一 个 对 象 从 可 达 变 成 不 可 达 的 转换 ， 
0 A 
引用 计数 回收 器 维护 了 指向 一 个 对 象 的 引用 的 计数 。 当 这 个 计数 变 
为 0 时 ， 该 对 象 就 变 成 不 可 达 的 。 这 样 的 回收 器 带 来 了 维护 引用 的 
开销 ， 并 且 可 能 无 法 找 出 “循环 ”的 垃圾 ， 即 由 相互 引用 的 不 可 达 对 
象 组 成 的 垃圾 。 这 些 垃圾 也 可 能 通过 由 引用 组 成 的 链 路 相互 引用 。 
基于 跟踪 的 垃圾 回收 器 从 根 集 出 发 ， 友 代 地 检查 或 跟踪 所 有 的 引 
用 ， 找 出 所 有 可 达 对 象 。 根 集 包 括 了 所 有 不 需要 对 任何 指针 解 引用 
就 可 直接 访问 的 对 象 。 

标记 -清扫 式 回 收 器 在 一 开始 的 跟踪 阶段 访问 并 标记 所 有 可 达 对 
象 ， 然 后 清扫 扒 区 ， 回 收 不 可 达 对 象 。 

标记 并 压缩 回收 器 改进 了 标记 并 清扫 算法 。 它 们 把 堆 区 中 的 可 达 对 
象 重 新 定位 ， 从 而 消除 存储 碎片 。 

拷贝 回收 器 将 跟踪 过 程 和 发 现 空 闲 空间 过 程 之 间 的 依赖 关系 打破 。 
它 将 存储 分 为 两 个 半空 间 A 和 B。 首 先 使 用 某 个 半空 间 ， 比 如 说 A， 
来 满足 分 配 请 求 ， 直 到 它 被 填 满 。 此 时 垃圾 回收 器 开始 工作 ， 将 可 
0 eh ee 


增 量 式 回收 器 。 简 单 的 基于 跟踪 的 回收 器 在 垃圾 回收 期 间 会 停止 用 
户 程序 的 执行 。 增 量 式 回收 器 让 垃圾 回收 过 程 和 用 户 程序 (或 者 说 
增 变 者 ) 交错 运行 。 增 变 者 可 能 干扰 增 量 式 可 达 性 分 析 ， 因 为 它 可 
能 改变 之 前 已 扫描 对 象 中 的 引用 。 因 此 ， 增 量 式 回收 器 通过 超 量 估 
计 可 达 对 象 集合 ， 达 到 安全 工作 的 目标 。 所 有 的 “漂浮 垃圾 * 可 以 在 
下 一 轮回 收 中 被 删除 。 

部 分 回收 器 同样 可 以 减少 停顿 时 间 。 它 们 每 次 只 回收 一 部 分 垃圾 。 



























































最 有 名 的 部 分 回收 算法 是 世代 垃圾 回收 方法 ， 它 根据 对 象 已 分 配 时 
间 的 长 短 对 对 象 分 区 ， 对 新 建 对 象 进行 更 频 索 的 回收 操作 ， 因 为 它 
们 的 生命 期 通常 较 短 。 另 一 个 算法 列车 工法 使 用 固定 长 度 的 补 称 为 
车 厢 的 区 域 。 这 些 车 厢 被 组 织 成 列车 。 每 一 个 回收 步骤 都 处 理 尚 存 
的 第 一 辆 列车 中 的 当前 的 第 一 节 车 厢 。 当 一 节 车 厢 被 回收 时 ， 可 达 
对 象 被 移动 到 其 他 车 厢 中 ， 这 节 车 厢 中 最 终 只 剩 下 垃圾 ， 因 此 可 以 
将 其 从 该 列车 中 删除 。 这 两 种 算法 可 以 一 起 使 用 ， 创 建 出 一 个 部 分 
人 
列车 算法 。 
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[人 请 回忆 一 下 ，“ 过 程 ” 这 个 词 是 函数 、 过 程 、 方 法 和 子 例 程 的 
统称 。 


[21ML 支 持 相 互 北 归 调 用 的 吕 数 ， 这 种 情况 可 以 用 同样 的 方式 处 
理 。 


[3] 在 后 面 的 内 容 中 ， 我 们 将 把 需要 内 存 空间 的 事物 称 为 “对 
象 ”， 尽 管 它们 并 不 是 “面向 对 象 程序 设计 ”意义 上 的 真正 对 象 。 


[4] 当 机 器 从 内 存 中 获得 一 个 存储 字 时 ， 同 时 预 取 (prefetch) 出 
其 后 的 多 个 连续 内 存 字 的 开销 相对 较 小 。 因 此 ， 一 个 常见 的 存储 层次 结 
构 的 特性 是 在 每 次 访问 菜 层 存储 的 时 候 会 从 该 层 存 储 中 获取 一 个 包含 了 
多 个 机 器 字 的 块 。 


[5] 在 一 个 典型 的 数据 结构 中 (如 散 列表 ) ， 如 果 o 没 有 被 赋予 一 个 
位 置 ， 那 么 在 这 个 结构 中 就 没有 相关 信息 。 


[61 从 技术 上 来 说 ， 区 域 不 会 被 填 满 ， 因 为 如 果 需 要 ， 存 储 管 理 器 
可 以 使 用 附加 的 磁盘 块 对 它们 进行 扩展 。 人 然而， 除了 最 后 一 个 区 域 ， 其 
他 区 域 的 尺寸 通常 都 有 一 个 界限 。 我 们 将 把 到 达 这 一 界限 称 为 “ 填 
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第 8 章 ”代码 生成 


我 们 的 编译 器 模型 的 最 后 一 个 步骤 是 代码 生成 器 。 如 图 8-1 所 示 ， 
它 以 编译 器 前 端 生成 的 中 间 表 示 (IR，〉 和 相关 的 符号 表 信 息 作为 输入 ， 
输出 语义 等 价 的 目标 程序 。 





图 8-1 代码 生成 器 的 位 置 


对 代码 生成 絮 的 要 求 是 很 严格 的 。 目 标 程序 必须 保持 源 程序 的 语义 
含义 ， 还 必须 具有 很 高 的 质量 。 也 就 是 说 ， 它 必须 有 效 地 利用 目标 机 器 
上 的 可 用 资源 。 此 外 ， 代 码 生成 费 本 里 必须 能 够 局 效 运 行 。 


具有 挑战 性 的 是 ， 从 数学 上 讲 ， 为 给 定 源 程序 生成 一 个 最 优 的 目标 
程序 是 不 可 判定 问题 ， 在 代码 生成 中 碰 到 的 很 多 子 问题 (比如 寄存 器 分 
配 〉 都 具有 难以 处 理 的 计算 复杂 性 。 在 实践 中 ， 我 们 必须 使 用 那些 能 够 
产生 民 好 但 不 一 定 最 优 的 代码 的 局 发 性 技术 。 羊 运 的 是 ， 尼 发 性 技术 已 
经 非常 成 熟 ， 一 个 精心 设计 的 代码 生成 器 所 产生 的 代码 要 比 那 些 由 简单 
的 生成 器 生成 的 代码 快 好 几 倍 。 


要 产生 高 效 目标 程序 的 编译 器 都 会 在 代码 生成 之 前 包含 一 个 优化 步 
又 。 优 化 器 把 一 个 了 极 映 射 为 另 一 个 可 用 于 产生 高 效 代码 的 IR。 编 译 器 的 
代码 优化 和 代码 生成 步 又 通常 被 称 为 编译 器 的 后 端 (back end) 。 它 们 
可 能 在 生成 目标 程序 之 前 对 阴 作 多 趟 处 理 。 代 码 优 化 将 在 第 9 章 中 详细 
人 














代码 生成 器 有 三 个 主要 任务 : 指令 选择 、 寄 存 器 分 配 和 指派 、 以 及 
指令 排序 。 这 些 任 务 的 重要 性 将 在 8.1 节 中 概述 。 指 令 选择 考虑 的 问题 
是 选择 适当 的 目标 机 指令 来 实现 IR 语 句 。 寄 存 器 分 配 和 指派 考虑 的 问题 
古 把 哪个 值 放 在 哪个 寄存 嚣 中。 指令 排序 考虑 的 问题 是 按照 什么 顺序 来 
安排 指令 的 执行 。 


本 章 给 出 了 一 些 和 代码 生成 相关 的 算法 ， 代 码 生成 器 可 以 使 用 这 些 





算法 把 输入 的 蕉 翻译 成 简单 寄存 器 机 器 的 目标 语言 指令 序列 。 这 些 算法 
将 使 用 8.2 节 中 的 机 器 模型 来 解释 。 第 10 章 讨论 了 复 洒 的 现代 机 器 的 代 
码 生成 问题 ， 这 些 现代 机 需 文 持 在 单一 指令 中 的 大 量 并 行 性 。 


在 讨论 了 代码 生成 器 设计 中 的 众多 难题 之 后 ， 我 们 给 出 了 一 个 编译 
器 需要 生成 什么 样 的 目标 代码 ， 以 文 持 常 见 源 语 言 中 所 包含 的 抽象 机 
制 。 在 8.3 节 ， 我 们 概述 了 静态 和 栈 式 数据 区 分 配 的 实现 方法 ， 并 说 明 
如 何 把 IR 中 的 名 字 转 换 成 为 目标 代码 中 的 地 址 。 


很 多 代码 生成 器 把 IR 指 令 分 成 “基本 块 "， 每 个 基本 块 由 一 组 总 是 一 
起 执行 的 指令 组 成 。 把 阴 划 分 成 基本 块 是 8.4 节 的 主题 。 接 下 来 介绍 了 
针对 基本 块 的 一 坚 简 单 的 局 部 转换 方法 。 从 转换 得 到 的 基本 块 出 及 可 以 
生成 更 加 高 效 的 代码 。 虽 然 要 到 第 9 章 才 开 始 考 碟 更 加 深入 的 代码 优化 
理论 ， 但 这 种 转换 已 经 是 代码 优化 的 初步 形式 。 一 个 有 用 的 局 部 转换 的 
例子 古 在 中 间 代 码 的 层次 上 寻找 公共 子 表达 式 ， 然 后 相应 地 把 算术 运算 
符 换 为 更 简单 的 拷贝 运算 。 

8.6 市 给 出 了 一 个 简单 的 代码 生成 算法 。 它 依次 为 每 个 语句 生成 代 
码 ， 并 把 运算 分 量 尽 可 能 长 时 间 地 保留 在 寄存 器 中 。 这 种 代码 生成 器 的 
输出 可 以 很 容易 地 使 用 帘 孔 优化 拉 术 进行 优化 。 接 下 来 的 8.7 市 中 将 讨 
论 完了 筷 优 化 技术 。 


其 余 的 部 分 将 研究 指令 选择 和 寄存 器 分 配 。 








8.1 代码 生成 器 设计 中 的 问题 


里 然 代码 生成 费 设 计 依赖 于 中 间 表 示 形 式 、 目 标语 言 和 运行 时 刻 系 
统 的 特定 细节 ， 但 指令 选择 、 寄 存 器 分 配 和 指派 以 及 指令 排序 等 任务 会 
在 几乎 所 有 的 代码 生成 器 设计 中 碰 到 。 


代码 生成 需 的 最 重要 的 标准 是 生成 正确 的 代码 。 正 确 性 问题 非常 突 
出 的 原因 是 代码 生成 咒 会 碰 到 很 多 种 特殊 情况 。 在 优先 考虑 正确 性 的 情 
Rn 
维护 。 





8.1.1 代码 生成 器 的 输入 


代码 生成 器 的 输入 是 由 前 端 生 成 的 源 程 序 的 中 间 表 示 形 式 以 及 符号 
表 中 的 信息 组 成 的 。 这 些 信 息 用 来 确定 IR 中 的 名 字 所 指 的 数据 对 象 的 运 
行 时 刻 地 址 。 


IR 的 中 间 表 示 形 式 的 选择 有 很 多 ， 包 括 诸如 四 元 式 、 三 元 式 、 间 接 
三 元 式 等 三 地 址 表示 方式 ; 也 包括 诸如 字 节 代码 和 堆栈 机 代码 的 虚拟 机 
表示 方式 ; 包括 庶 如 后 级 表示 的 线性 表示 方式 ; 还 包括 诸如 语法 树 和 
DAG 的 图 形 表示 方式 。 本 章 中 的 多 个 算法 都 是 根据 第 6 章 中 所 考虑 的 表 
示 方 法 来 表示 的 。 这 些 表示 方法 包括 : 三 地 址 代码 、 树 和 DAG。 然 而 ， 
我 们 讨论 的 技术 也 可 以 用 于 其 他 的 中 间 表 示 形 式 。 


在 本 半 中 ， 我 们 假设 前 端 已 经 扫描 、 分 析 了 源 程 序 ， 并 把 它 转 换 成 
为 相对 低层 次 的 中 间 表 示 形 式 ， 因 此 在 IR 中 出 现 的 名 字 的 值 可 以 用 能 被 
目标 机 直接 处 理 的 量 来 表示 。 这 些 量 可 以 是 整数 、 浮 点数 等 。 我 们 还 假 
设 所 有 的 语法 和 静态 语义 错误 都 已 经 被 检测 出 来 ， 必 要 的 类 型 检查 都 已 
经 完成 ， 而 类 型 转换 运算 已 经 被 插入 到 必要 的 地 方 。 因 此 ， 代 码 生 成 句 
可 以 在 工作 过 程 中 假设 它 的 输入 已 经 排除 了 这 些 错误 。 























8.1.2 ”目标 程序 





构造 一 个 能 够 产生 高 质量 机 器 代码 的 代码 生成 器 的 难度 会 受到 目标 
机 器 的 指令 集体 系 结构 的 极 大 影响 。 最 常见 的 目标 机 体系 结构 是 
人 


RISC 机 通常 有 很 多 寄存 器 、 三 地 址 指令 、 简 单 的 寻 址 方式 和 一 个 
相对 简单 的 指令 集体 系 结构 。 相 反 ，CISC 机 通 利 具有 较 少 寄存 部、 两 
地 址 指令 、 多 种 寻 址 方式 、 多 种 类 型 的 寄存 器 、 可 变 长 度 的 指令 和 有 具有 
副作用 的 指令 。 


在 基于 栈 的 机 器 中 ， 运 算是 通过 把 运算 分 量 压 入 一 个 栈 ， 然 后 再 对 
栈 顶 的 运算 分 量 进行 运算 而 完成 的 。 为 了 获得 高 性 能 ， 栈 顶 元 素 通 常 保 
存在 寄存 器 中 。 因 为 人 们 觉得 堆栈 组 织 的 限制 太 多 ， 并 且 需 要 太 多 的 交 
换 和 拷贝 操作 ， 所 以 基于 堆栈 的 机 器 几乎 已 经 消失 了 。 


但 是 ， 基 于 堆栈 的 体系 结构 随 着 Java 虚 拟 机 (JVM) 的 出 现 又 复活 
了 。JVM 是 一 个 Java 字 节 人 码 的 软件 解释 器 。 字 市 码 是 由 Java 编 译 器 生成 
的 一 种 中 间 语 言 。 这 个 解释 右 提 供 了 跨 平 台 的 软件 兼容 性 。 这 是 Java 成 
功 的 一 个 重要 因素 。 


解释 执行 会 引起 很 高 的 性 能 损失 ， 有 时 可 能 达到 10 倍 的 数量 级 。 为 
了 克服 这 个 问题 ， 人 们 创造 了 即时 (Just-In-Time，JIT) Java 编 译 器 。 
这 些 即时 编译 器 在 运行 时 刻 把 字 节 码 翻 译 成 目标 机 上 的 本 地 硬件 指令 

。 另 一 个 提高 Java 程 序 性 能 的 方法 是 建立 一 个 编译 器 ， 把 Java 程 序 直 
接 编 译 成 目标 机 器 指令 ， 彻 底 绕 过 字 节 码 。 


输出 一 个 使 用 绝对 地 址 的 机 咒语 言 程序 的 优点 是 程序 可 以 放 在 内 存 
中 的 菜 个 固定 位 置 上 ， 并 立即 执行 。 程 序 可 以 很 快 地 进行 编译 和 执行 。 


输出 可 重 定 位 的 机 器 语言 程序 (通常 称 为 目标 模块 ，object 
module〉 可 以 使 各 个 子 程序 能 够 被 分 别 编译 。 一 组 可 重 定位 的 目标 模块 
可 以 被 一 个 链接 加 载 器 链接 到 一 起 并 加 载运 行 。 如 果 我 们 要 生成 可 重 定 
位 的 目标 模块 ， 我 们 就 必须 为 链接 和 加 载 付出 代价 。 但 是 这 样 做 可 以 使 
我 们 得 到 很 多 的 灵活 性 。 我 们 可 以 把 子 程序 分 开 编 译 ， 并 能 够 从 一 个 目 






































标 模 块 中 调用 其 他 已 经 纺 译 好 的 程序 。 如 采 目 标 机 没有 上 自动 处 理 重 定 
位 ， 编 译 器 就 必须 癌 加 载 右 提供 明确 的 重 定 位 信息 ， 以 便 把 分 开 编译 的 
程序 模块 链接 起 来 。 


输出 一 个 汇编 程序 使 代码 生成 过 程 变 得 稍微 容易 一 些 。 我 们 可 以 生 
成 符 写 指令 ， 并 使 用 汇编 器 的 宏 机 制 来 帮助 生成 代码 。 这 么 做 的 代价 是 
代码 生成 之 后 还 需要 增加 一 个 汇编 步骤 。 


在 本 章 中 ， 我 们 将 使 用 一 个 非常 简单 的 类 RISC 计 算 机 作为 目标 
机 。 我 们 在 这 个 机 器 上 加 入 了 一 些 类 CISC 的 寻 址 方式 。 这 样 我 们 就 可 
以 讨论 CISC 机 器 的 代码 生成 技术 了 。 为 了 增加 可 读 性 ， 我 们 把 汇编 代 
码 用 作 目 标语 言 。 只 要 变量 地 址 可 以 通过 偶 移 量 和 存放 于 符号 表 中 的 其 
他 信息 计算 出 来 ， 代 码 生成 费 束 可 以 为 源 程序 中 的 名 字 生 成 可 重 定位 地 
址 或 绝对 地 址 。 这 和 生成 符号 地 址 一 样 ， 都 是 很 简单 的 事情 。 


























8.1.3 ”指令 选择 


代码 生成 器 必须 把 民 程 序 映射 成 为 可 以 在 目标 机 上 运行 的 代码 序 
列 。 完 成 这 个 映 冉 的 复杂 性 由 如 下 的 因素 决定 : 


。 IR 的 层次 。 
。 指令 集体 系 结构 本 身 的 特性 。 
。 想 要 达到 的 生成 代码 的 质量 。 


如 打 R 是 局 层 次 的 ， 代 码 生 成 器 束 要 使 用 代码 模板 把 每 个 IR 语 句 翻 
译 成 为 机 器 指令 序列 。 但 是 ， 这 种 逐个 语句 生成 代码 的 方式 通 第 会 产生 
质量 不 佳 的 代码 。 这 些 代码 需要 进一步 优化 。 如 果 玉 中 反映 了 相关 计算 
机 的 茶 些 低层 次 细节 ， 那 么 代码 生成 器 就 可 以 使 用 这 些 信 息 来 生成 更 加 
高 效 的 代码 序列 。 


目标 机 指令 集 本 里 的 特性 对 指令 选择 的 难度 有 很 大 的 影响 。 比 如 ， 
旨 令 集 的 统一 性 和 完整 性 是 两 个 很 重要 的 因素 。 如 果 目 标 机 没有 以 统一 
的 方式 文 持 每 种 数据 类 型 ， 那 么 总 体 规则 的 每 个 例外 都 需要 进行 特别 处 
理 。 比 如 ， 在 东 些 机 器 上 ， 浮 点 数 运 算 使 用 单独 的 寄存 器 完成 。 


指令 速度 和 机 器 的 特有 用 法 是 男 外 一 些 重 要 因素 。 如 果 我 们 不 考虑 








目标 程序 的 效率 ， 那 么 指令 选择 是 很 简单 的 。 对 于 每 一 种 三 地 址 语句 ， 
我 们 可 以 生成 一 个 代码 骨架 。 此 骨架 定义 了 对 这 个 构造 生成 什么 样 的 目 
标 代码 。 比 如 ， 每 一 个 形 如 x=y+z 的 三 地 址 语句 (其 中 x、y 和 z 都 是 静态 
分 配 的 ) 可 以 被 翻译 成 如 下 的 代码 序列 : 


LD RO,Y // RO = y (把 y 装载 到 寄存 器 RO ) 
ADD RO, RO,zZ //RO=RO+Zz (把 z 加 到 RO) 
ST x, RO // x = RO (把 RO 保存 到 x) 


这 种 策略 常常 会 产生 元 余 的 加 载 和 存储 运算 。 比 如 ， 下 面 的 三 地 址 
语句 序列 


a=b+c 
d=a+e 
会 被 翻译 成 

LD RO，b // RO = 
ADD RO, RO, c // RO= RO+c 
ST a, RO //a= RO 

LD RO, a // RO = a 
ADD RO, RO, e // RO = ROOT+e 
ST d, RO // a= RO 


这 里 的 第 四 个 语句 是 见 余 的 ， 因 为 它 加 载 了 一 个 刚刚 保存 到 内 存 的 值 。 
并 且 如 果 a 以 后 不 再 被 使 用 ， 那 么 第 三 个 语句 也 是 元 余 的 。 


生成 代码 的 质量 通常 是 由 它 的 运行 速度 和 大 小 来 确定 的 。 在 大 多 数 

机 絮 上 ， 一 个 给 定 的 IR 程 序 可 以 用 很 多 种 不 同 的 代码 序列 来 实现 。 这 些 

不 同 实现 之 间 在 代价 上 有 大 显著 的 差别 。 因 此 ， 对 中 间 代 码 的 简单 翻译 

R00 6 
党 。 


比如 ， 如 果 目 标 机 有 一 个 “加 一 ”指令 CTNC) ， 那 么 三 地 址 语句 
a=at1 可 以 用 一 个 指令 INC a 来 实现 。 这 个 指令 要 比如 下 的 代码 序列 更 加 
高 效 ， 把 a 加 载 进 一 个 寄存 器 ， 对 寄存 器 加 1， 然 后 把 结果 保存 回 a。 




















LD  RO， 远 // RO = a 
ADD RO, RO, #1 // RO = RO+1 
ST a, RO // a= RO 


要 设计 出 良好 的 代码 序列 ， 我 们 就 必须 知道 指令 的 代价 。 遗 憾 的 
是 ， 我 们 经 常 难 以 得 到 精确 的 代价 信息 。 对 于 一 个 给 定 的 三 地 址 构造 ， 
人 
码 序列 。 


在 8.9 节 ， 我 们 将 看 到 指令 选择 可 以 用 树 模 式 匹 配 过 程 来 建 模 。 在 
这 个 过 程 中 ， 我 们 把 IR 和 机 器 指令 表示 为 树 结 构 。 然 后 ， 我 们 尝试 厦 用 
一 组 对 应 于 机 器 指令 的 子 树 窗 盖 一 民 IR 树 。 如 末 我 们 把 每 哥 机 絮 指 令 子 
树 和 一 个 代价 值 相 关联 ， 我 们 残 可 以 用 动态 规划 的 方法 来 生成 最 优化 的 
代码 序列 。 动 态 规划 将 在 8.11 节 中 讨论 。 








B14 千 他 证 分 本 


代码 生成 的 关键 问题 之 一 是 决定 哪个 值 放 在 哪个 寄存 嚣 里面。 寄存 
融和 是 目标 机 上 运行 速度 最 快 的 计算 单元 ， 但 是 我 们 通常 没有 足够 的 寄存 
需 来 存放 所 有 的 值 。 没 有 存放 在 寄存 器 中 的 值 必须 存放 在 内 存 中 。 使 用 
寄存 器 运算 分 量 的 指令 总 是 要 比 那 些 运 算 分 量 在 内 存 中 的 指令 短 并 且 
快 。 因 此 ， 有 效 利 用 寄存 器 非常 重要 。 


寄存 器 的 使 用 经 常 被 分 解 为 两 个 子 问题 : 


1) 寄存 器 分 配 : 对 于 源 程 序 中 的 每 个 点 ， 我 们 选择 一 组 将 被 存放 
在 寄存 器 中 的 变量 。 

2) 和 寄存 并 指派 : 我 们 指定 一 个 变量 被 存放 在 哪个 寄存 器 中 。 

即使 对 于 单 寄存 器 机 右 ， 找 到 一 个 从 寄存 器 到 变量 的 最 优 指派 也 是 
很 困难 的 。 从 数学 上 讲 ， 这 个 问题 是 NP 完全 的 。 而 且 ， 目 标 机 的 人 硬件 


和 /或 操作 系统 可 能 要 求 代 码 遵 守 特 定 的 寄存 器 使 用 规则 ， 从 而 使 这 个 
问题 变 得 更 加 复杂 。 























7 有 些 机 器 要 求 为 某 些 运算 分 量 和 结果 使 用 寄存 器 对 〈 即 一 个 偶 
号 宁 存 器 和 相 邻 的 奇数 号 寄存 器 ) 。 比 如 ， 在 某 些 机 器 上 ， 整 数 乘法 
和 整数 除法 就 涉及 寄存 器 对 。 乘 法 指令 的 形式 如 下 ; 





村 


其 中 被 乘 数 x 是 侦 数 /奇数 寄存 右 对 中 的 奇数 号 寄存 占 ， 而 乘 数 y 则 可 以 
人 乘法 结果 占据 了 整个 偶数 /奇数 寄存 器 对 。 除 法 指令 
形式 D0 下: 














D x, y 





其 中 ， 说 除数 占据 了 整个 偶数 /奇数 寄存 占 对 ，x 是 其 中 的 侦 数 号 寄存 
人 相 除 之 后 ， 偶 数 号 寄存 器 保存 余数 ， 而 奇数 号 寄存 器 
年 商 。 


现在 ， 考 虑 图 8-2 中 的 两 个 三 地 址 代码 序列 。 图 8-2a 和 图 8-2b 之 间 的 
唯一 差别 是 第 二 个 语句 的 运算 符 。 图 8-2a 和 图 8-2b 对 应 的 最 短 汇编 代码 
序列 如 图 8-3 所 示 。 











a) 


图 8-2 ”两 个 三 地 址 代码 序列 


上 RO, a 
A RO, b 
A RO, c 


SRDA RO, 32 
D RO 己 
SF Rl, 未 





b) 


图 8-3 最 优 机 器 代码 序列 








Ri 表示 第 i 写 寄 存 器 。SRDA 表 示 双 算术 右 移 (Shift-Right-Double- 
Arithmetic) ， 而 SRDA R9 32 把 被 除数 从 Re 中 移入 R1 并 把 Re 清空 ， 使 得 所 
有 位 都 等 于 被 除数 的 正 负 号 位 。L，ST 和 A 分 别 表示 加 载 、 保 存 和 相 加 。 
需要 注意 的 是 ， 把 a 加 载 到 哪个 寄存 器 的 最 优选 择 依赖 于 最 终 会 对 t 做 什 
么 样 的 运算 。 


寄存 器 的 分 配 和 指派 的 策略 将 在 8.8 节 讨论 。8.10 节 将 给 出 对 某 些 类 
下 的 机 器 ， 我 们 可 以 构造 出 使 用 最 少 的 寄存 器 来 完成 表达 式 求全 的 代 友 
字 列 . 








8.1.5 ” 求 值 顺序 








计算 执行 的 顺序 会 影响 目标 代码 的 效率 。 我 们 即将 看 到 ， 相 比 其 他 
的 计算 顺序 而 言 ， 某 些 计算 顺序 对 用 于 存放 中 间 线 案 的 寄存 器 的 需求 更 
少 。 但 是 在 一 般 情 况 下 ， 找 到 最 好 的 顺序 是 一 个 困难 的 NP 完 全 问题 。 
一 开始 ， 我 们 将 按照 中 间 代 码 生成 局 生 成 代码 的 顺序 为 三 地 址 语句 生成 
代码 ， 从 而 和 暂时 避 开 这 个 问题 。 在 第 10 章 ， 我 们 将 研究 对 流水 线 计算 机 
的 代码 排序 。 这 种 流水 线 计算 机 可 以 在 一 个 时 钟 周 期 内 执行 多 个 运算 。 





8.2 目标 语言 


熟悉 目标 计算 机 及 其 指令 集 是 设计 一 个 优秀 代码 生成 器 的 前 提 。 为 
了 给 某 个 目标 机 器 上 的 一 个 完整 的 源 语言 生成 高 质量 的 代码 ， 我 们 需要 
了 解 该 目标 机 的 许多 细节 。 遗 憾 的 是 ， 在 对 代码 生成 的 一 般 性 讨论 中 不 
可 能 描述 出 全 部 的 细节 。 在 本 章 中 ， 我 们 将 使 用 一 个 简单 计算 机 的 汇编 
代码 作为 目标 语言 。 这 个 计算 机 是 很 多 寄存 器 机 器 的 代表 。 然 而 ， 本 章 
中 描述 的 很 多 代码 生成 技术 也 可 以 用 于 很 多 其 他 类 型 的 机 器 。 











8.2.1 ”一 个 简单 的 目标 机 模型 


我 们 的 目标 计算 机 是 一 个 三 地 址 机 器 的 模型 。 它 具有 加 载 和 保存 操 
作 、 计 算 操 作 、 跳 转 操作 和 条 件 跳 转 。 这 个 计算 机 的 内 存 按照 字 节 寻 
址 ， 它 具有 n 个 通用 寄存 器 Re，R1，...，Rn-1。 一 个 完整 的 汇编 语言 具 
有 几 十 到 上 百 个 指令 。 为 了 避免 因为 过 多 的 细节 而 妨碍 对 概念 的 解释 ， 
我 们 将 只 使 用 一 个 很 有 限 的 指令 集合 ， 并 假设 所 有 的 运算 分 量 都 是 整 
数 。 大 部 分 指令 包含 一 个 运算 符 ， 然 后 是 一 个 目标 地 址 ， 最 后 是 一 个 源 
指令 之 前 可 能 有 一 个 标号 。 我 们 假设 有 如 下 种 类 的 指 
令 可 用 : 


。 加 载运 算 : 指令 Lp dst，addr 把 位 置 addr 上 的 值 加 载 到 位 置 dst。 这 个 
指令 表示 赋值 dst=addr。 这 个 指令 最 第 见 的 形式 是 Lp r，Xx。 它 把 位 
置 x 中 的 值 加 载 到 寄存 器 r 中 。 形 如 LD 1， 的 指令 是 一 个 寄存 器 到 
寄存 器 的 拷贝 运算 。 它 把 寄存 器 rm 的 内 容 拷 贝 到 寄存 器 mi 中 。 

保存 运算 : 指令 sT x，r 把 寄存 器 r 中 的 值 保存 到 位 置 x<。 这 个 指令 表 
示 赋 值 x=r。 

计算 运算 : 形 如 OP dst，srci，src"， 其 中 OP 是 一 个 诸如 App 或 suB 的 
运算 符 ， 而 dst、src1 和 srcs 是 内 存 位 置 。 这 些 位 置 不 一 定 要 相互 不 
同 。 这 个 机 器 指令 的 作用 是 把 OP 所 代表 的 运算 作用 在 位 置 src; 和 
src; 中 的 值 上 ， 然 后 把 这 次 运算 的 结果 放 到 位 置 dst 中 。 比 如 ，SUB 
I1， >) Ts 计算 了 ri=To-T3。 原先 存放 在 rj 中 的 值 丢失 了 ， 但 是 如 果 r 


























等 于 m 或 者 5， 计 算 机 会 首先 读 出 原来 的 值 。 只 需要 一 个 运算 分 量 
的 单 目 运算 符 没 有 src>。 

无 条 件 跳 转 : 指令 BR 工 使 得 控制 流转 向 标号 为 L 的 机 器 指令 。 (BR 
人 

条 件 跳 转 : 该 指令 的 形式 为 Bcondr，L， 其 中 r 是 一 个 寄存 器 ，L 是 
一 个 标号 ， 而 cond 代 表 了 对 寄存 器 r 中 的 值 所 做 的 某 个 常见 测试 。 
比如 ， 当 寄存 器 r 中 的 值 小 于 0 时 ，BLTz r， 工 使 得 控制 流 跳 转 到 标号 
L; 和 否则， 控制 流 传递 到 下 一 个 机 器 指令 。 


我 们 假设 目标 机 有 具有 多 种 寻 址 模式 : 


在 指令 中 ， 一 个 位 置 可 以 是 一 个 变量 名 x， 它 指向 分 配给 x 的 内 存 位 
置 ( 即 x 的 左 值 〉。 

一 个 位 置 也 可 以 是 一 个 带 有 下 标的 形 如 a (r) 的 地 址 ， 其 中 a 是 一 
个 变量 ， 而 r 是 一 个 寄存 器 。a (r) 所 表示 的 内 存 位 置 按 照 如 下 方式 
计算 得 到 : a 的 左 值 加 上 存放 在 寄存 器 r 中 的 值 。 比 如 ， 指 令 LD R1， 
a (CR2) 的 效果 是 R1=contents (atcontents (R2) ) ， 其 中 

contents (x) 表示 x 所 代表 的 寄存 器 或 内 存 位 置 中 存放 的 内 容 。 这 
个 寻 址 方式 对 于 数组 访问 是 很 有 用 的 ， 其 中 a 是 数组 的 其 地址 ( 即 
第 一 个 元 素 的 地 址 ) ， 而 r 中 存放 了 从 基地 址 到 数组 a 的 某 个 元 素 所 
要 经 过 的 字 节 数 。 

一 个 内 存 位 置 可 以 是 一 个 以 寄存 器 作为 下 标的 整数 。 比 如 ，LD R1， 
100 (CR2) 的 效果 就 是 使 得 R1=contents (100 +contents (R2) ) 。 也 就 
是 说 ， 首 先 计 算 寄 存 器 R2 中 的 值 加 上 100 得 到 的 和 ， 然 后 把 这 个 和 
所 指向 的 位 置 中 的 值 加 载 到 Rd 中。 正如 我 们 在 下 面 的 例子 中 将 看 到 
的 那样 ， 这 个 寻 址 方式 可 以 用 于 沿 指针 取 值 。 

我 们 还 支持 男 外 两 种 间接 寻 址 模式 : *r 表 示 在 寄存 器 r 的 内 容 所 表示 
的 位 置 上 存放 的 内 存 位 置 。 而 *100 (r) 表示 在 r 中 内 容 加 上 100 的 和 
所 代表 的 位 置 上 的 内 容 所 代表 的 位 置 。 比 如 ，LD R1，*160 (CR2) 的 
效果 是 把 Ri 设置 为 contents (contents (100+contents (R2) ) ) 。 世 
就 是 说 ， 首 先 计 算 寄 存 器 R2 中 的 内 容 加 上 100 的 和 ， 取 出 和 值 所 指 
的 位 置 中 的 内 容 ， 再 把 这 个 内 容 代 表 的 位 置 中 的 值 加 载 到 Ri 中 。 
最 后 ， 我 们 支持 一 个 直接 常数 寻 址 模式 。 在 常数 前 面 有 一 个 前 级 
#。 指 令 LD R1，#169 把 整数 100 加 载 到 R1 中 ， 而 ADD R1，R1，#169 则 
把 100 加 到 寄存 占 Ri 中 去 。 


在 指令 之 后 的 注解 由 /开头 。 























三 地 址 语句 x=y-z 可 以 使 用 下 面 的 机 器 指令 序列 实现 : 


ED BRL 了 // R1 = y 
LD R2, z // R2 = z 
SUB R1, R1, R2 // R1 = R1 - R2 
ST Ky Rl // x = Ri 


也 许 我 们 能 做 得 更 好 。 一 个 优秀 的 代码 生成 算法 的 目标 之 一 是 尺 可 
能 地 避免 使 用 上 面 的 全 部 四 个 指令 。 比 如 ，y 和 /或 z 可 能 已 经 被 计算 出 
来 并 存放 在 一 个 寄存 器 中 。 如 有 果 是 这 样 ， 我 们 就 可 以 避免 相应 的 Lp 步 
又 。 类 似 地 ， 如 果 x 的 值 被 使 用 时 都 存放 在 寄存 器 中 ， 并 且 之 后 不 会 再 
被 用 到 ， 我 们 就 不 需要 把 这 个 值 保存 回 x。 


假设 a 是 一 个 元 素 为 8 字 节 值 〈 比 如 实数 ) 的 数组 。 再 假设 a 的 元 素 
人 我 们 可 以 通过 下 面 的 指令 序列 来 执行 三 地 址 指令 
=Q LI : 





LD: Ri 斑 // Ri1= i 

MUL R1, Ri1, 8 // Ri1 = RI1 * 8 

LD R2, a(R1) // R2 = contents(a + contents(R1)) 
ST b, R2 // b = R2 


这 里 的 第 二 步 计 算 8i;， 而 第 三 步 把 a 的 第 i 企 元 素 的 值 放 到 Rz 中 ， 这 
个 元 素 位 于 离 数 组 a 的 基地 址 8i 个 字 市 的 地 方 。 


类 似 地 ， 三 地 址 指令 a [j] =c 所 代表 的 对 数组 a 的 赋值 可 以 实现 为 : 


LD R1，c // R1 = < 

LD R2, j // R2 = j 

MUL R2, R2, 8 // R2 = R2 * 8 

ST a(R2), R1 // contents(a + contents(R2)) = R1 


为 了 实现 一 个 简单 的 指针 间接 存 取 ， 比 如 三 地 址 语句 x=*p， 我 们 可 
以 使 用 如 下 的 机 器 指令 序列 : 


LD R1i, p // R1 = P 
LD R2, 0(R1) // R2 = contents(0 + contents(R1)) 
ST x, R2 // X = R2 


通过 指针 的 赋值 语句 *p=y 可 以 类 似 地 用 如 下 的 机 需 代 码 实现 : 


LD R1，Pp // R1 = p 
LD R2, y // R2 = y 
ST 0(R1), R2 // contents(0 + contents(R1)) = R2 


最 后 考虑 一 个 带 条 件 跳 转 的 三 地 址 指令 : 
< LL 


它 的 等 价 的 机 屁 代码 如 下 : 


LD Ri, x J/ RL 

ED Ra // R2 = y 

SUB R1，R1，R2 // Ri = Ri - R2 

BLTZ R1, M // if R11 < 0 jump to M 


这 里 的 M 是 从 标号 为 [的 三 地 址 指令 所 产生 的 机 豆 指 令 序 列 中 的 第 一 
个 指令 的 标号 。 对 于 任意 一 个 三 地 址 指令 ， 我 们 希望 可 以 省 略 这 些 指令 
中 的 东 些 指令 。 省 略 的 原因 可 能 是 所 需 的 运算 分 量 已 经 在 寄存 器 中 了 ， 
也 可 能 因为 结果 不 需要 存放 回 内 存 。 











8.2.2 ”程序 和 指令 的 代价 


我 们 经 常会 指出 编译 及 运行 一 个 程序 所 需 的 代价 。 根 据 我 们 在 优化 
一 个 程序 时 感 兴趣 的 方面 ， 我 们 会 使 用 不 同 的 上 度量。 常用 的 度量 包括 编 
译 时 间 的 长 短 ， 以 及 目标 程序 的 大 小 、 运 行 时 间 和 能 耗 。 


确定 编译 和 运行 一 个 程序 的 实际 代价 是 一 个 复杂 的 问题 。 总 的 来 
说 ， 为 一 个 给 定 的 源 程序 找到 一 个 最 优 的 目标 程序 是 一 个 不 可 判定 问 
题 ， 而 很 多 相关 的 子 问 题 都 是 NP 困 难 的 。 正 如 我 们 已 经 指 出 的 ， 在 代 
码 生成 时 ， 我 们 通常 必须 满足 于 那些 能 够 生成 优 民 代码 但 不 一 定 是 最 优 
目标 程序 的 局 发 式 技术 。 


在 本 章 的 其 余部 分 ， 我 们 将 假设 每 个 目标 语言 指令 都 有 相应 的 代 


























价 。 为 简单 起 见 ， 我 们 把 一 个 指令 的 代价 设 定 为 1 加 上 与 运算 分 量 寻 址 
模式 相关 的 代价 。 这 个 代价 对 应 于 指令 中 字 的 长 度 。 寄 存 器 寻 址 模式 具 
rad 而 涉及 内 存 位 置 或 常数 的 寻 址 方式 的 附加 代价 为 1。 
下 是 一 些 列子 -: 


。 指令 LD RG，R1 把 寄存 器 R1 中 的 内 容 找 贝 到 寄存 器 Re 中 。 因 为 不 要 
求 附加 的 内 存 字 ， 所 以 这 个 指令 的 代价 是 1。 

。 指令 LD R90, M 把 内 存 位 置 M 中 的 内 容 加 载 到 寄存 器 Ro 中 。 指 令 的 代 
价 是 2， 因 为 内 存 位 置 M 的 地 址 在 紧 跟 着 指令 的 字 中 。 

。 指令 LD R1，*106 (CR2) 把 值 contents (contents (100+ 

contents CR2) ) ) 加 载 到 寄存 器 R1 中 。 这 个 指令 的 代价 是 2， 因 为 
常数 100 存 放 在 紧 跟着 指令 的 内 存 字 中 。 


在 本 章 中 ， 我 们 假设 对 于 一 个 指定 的 输入 ， 目 标语 言 程序 的 代价 是 
当 此 程序 在 该 输入 上 运行 时 所 执行 的 所 有 指令 的 代价 总 和 。 优 秀 的 代码 
生成 算法 的 目标 是 使 得 程序 在 典型 输入 上 运行 时 所 执行 指令 的 代价 总 和 
最 小 。 我 们 将 会 看 到 ， 在 茶 些 情况 下 ， 我 们 真 的 能 够 在 茶 些 类 型 的 寄存 
融 机 器 上 为 表达 陈 生成 最 优 的 代码 。 











8.2.3 8.2 节 的 练习 





练习 8.2.1: 假设 所 有 的 变量 都 存放 在 内 存 中 ， 为 下 面 的 三 地 址 语句 
生成 代码 : 


1)x=1 
2)x=a 
3)x=a+l 


4)x=a+t+b 

5 ) 两 个 语句 的 序列 
X=b*c 
y=a+x 








练习 8.2.2: 假设 a 和 b 和 是 元 素 为 4 字 节 值 的 数组 ， 为 下 面 的 三 地 址 语 
名 序列 生成 代码 。 


1) 四 个 语句 的 序列 


2) 三 个 语句 的 序列 
= a[il] 
y = br[i] 
4 汪 * 了 


3) 三 个 语句 的 序列 


x = a[il] 
y = bf[x] 
a[i]j = y 


练习 8.2.3: 假设 p 和 q 存 放 在 内 存 位 置 中 ， 为 下 面 的 三 地 址 语句 序列 
生成 代码 : 





| 
q=q+4 
i 
p=p+4 


本 练习 8.2.4: 假设 x、y 和 z 存 放 在 内 存 位 置 中 ， 为 下 面 的 语句 序列 生 
代码 : 


if 革 有 260 Ll 
Z = 0 
goto 工 2 

L143 到 党 入 


练习 8.2.5: 假设 n 在 一 个 内 存 位 置 中 ， 为 下 面 的 语句 序列 生成 代 
人 码 : 


s=0 
i=0 

Li: if i > n goto L2 
s=s+1i 
i=i+1 
goto L1 


练习 8.2.6: 确定 下 列 指令 序列 的 代价 。 


1 RO; y 
LD R1，z 
ADD RO, RO, R1 
ST x, RO 

2) LD RO, i 
MUL RO, RO, 8 
LD Ri1, a(RO) 
ST b, R1 

3) LD RO，c 
LD Ri, i 
MUL R1, Ri1, 8 
ST a(R1), RO 

4) LD RO,Pp 
LD R1, 0(RO) 
ST x, R1 


SY) Lr Ry 
LD Ri1i, x 
ST 0(RO) ，R1 
0) LD RO,x 
Eb Ri 
SUB RO, RO, Ri 
BLTZ *R3, RO 





8.3 目标 代码 中 的 地 址 


在 本 节 中 ， 我 们 将 说 明 如 何 使 用 静态 和 栈 式 内 存 分 配 为 简单 的 过 程 
调用 和 返回 生成 代码 ， 以 此 将 巩 中 的 名 字 转 换 成 为 目标 代码 中 的 地 址 。 
在 7.1 节 中 ， 我 们 描述 了 每 个 正在 执行 的 程序 是 如 何在 它 的 饮 辑 地 址 空 
间 上 运行 的 。 这 个 空间 被 划分 成 为 四 个 代码 及 数据 区 域 : 


1) 一 个 静态 确定 的 代码 区 Code。 这 个 区 存放 可 执行 的 目标 代码 。 
目标 代码 的 大 小 可 以 在 编译 时 刻 确 定 。 


2) 一 个 静态 确定 的 静态 数据 区 Static。 这 个 区 存放 全 局 常量 和 编译 
虱 生 成 的 其 他 数据 。 全 局 第 量 和 编译 如 数据 的 大 小 也 可 以 在 编译 时 刻 确 
定 。 








3) 一 个 动态 管理 的 堆 区 Heap。 这 个 区 存放 程序 运行 时 刻 分 配 和 释 
放 的 数据 对 象 。Heap 的 大 小 不 能 在 编译 时 刻 静 态 确 定 。 


4) 一 个 动态 管理 的 栈 区 Stack。 这 个 区 存放 过 程 的 活动 记录 。 活 动 
记录 会 随 着 过 程 的 调用 和 返回 被 创建 和 消除 。 和 堆 区 一 样 ， 栈 区 的 大 小 
也 不 能 在 编译 时 刻 确定 。 


8.3.1 静态 分 配 


是 返回 的 代码 生成 ， 我 们 关注 下 面 的 三 地 
址 语 口 


e Call callee 
e return 
ee halt 


。 action， 这 是 代表 其 他 三 地 址 语句 的 占 位 符 。 


活动 记录 的 大 小 和 布局 是 由 代码 生成 句 通 过 存放 于 符号 表 中 的 名 字 
的 信息 来 确定 的 。 我 们 将 首先 说 明 如 何在 过 程 调用 时 在 一 个 活动 记录 中 





存放 返回 地 址 ， 以 及 如 何在 过 程 调 用 结束 后 把 控制 返回 到 这 个 地 址 。 为 
方便 起 见 ， 我 们 假设 活动 记录 的 第 一 个 位 置 存放 返回 地 址 。 


我 们 首先 考虑 实现 最 简单 情况 〈 即 静态 分 配 ) 时 的 代码 。 这 里 ， 中 
间 代 码 中 的 call callee 语 句 可 以 用 包含 两 个 目标 机 指令 的 序列 来 实现 : 





ST callee.staticArea, #here+ 20 
BR callee.codeArea 


ST 指 令 把 返回 地 址 保存 到 callee 的 活动 记录 的 开始 处 ， 而 BR 把 控制 传递 
到 被 调用 过 程 callee 的 目标 代码 上 。 属 性 callee.staticArea 是 一 个 常量 ， 给 
出 了 callee 的 活动 记录 的 开始 处 的 地 址 ， 而 属性 callee.codeArea 也 是 一 个 
J 指 同 运行 时 刻 内 存 中 Code 区 中 被 调用 过 程 callee 的 第 一 个 指令 的 


sT 指 令 中 的 运算 分 量 #here+20 是 返回 地 址 的 文字 表示 ， 它 是 紧 跟 
在 BR 指令 之 后 的 指令 的 地 址 。 我 们 假设 如 ere 是 当前 指令 的 地 址 ， 而 调用 
序列 中 的 三 个 常量 加 上 两 个 指令 的 长 度 为 5 个 字 ， 即 20 个 字 节 。 


过 程 代码 的 结尾 处 是 一 个 返回 到 调用 者 过 程 的 指令 。 但 是 没有 调用 
者 的 第 一 个 过 程 例外 ， 它 的 最 后 一 个 指令 是 HALT。 这 个 指令 把 控制 返回 
给 操作 系统 。 一 个 return 语 句 可 以 使 用 一 个 简单 的 跳 转 语句 实现 : 





BR *callee.staticArea 
它 把 控制 流转 到 保存 在 callee 的 活动 记录 开始 位 置 的 地 址 上 。 
假设 我 们 有 下 面 的 三 地 址 代码 : 


// c 的 代码 
act1onl 
call P 
act1ion» 
halt 

// Pp 的 代码 
actions 
return 


图 8-4 给 出 了 这 个 三 地 址 代码 的 目标 程序 。 我 们 使 用 伪 指 令 AcTION 
来 代表 执行 语句 action 的 机 器 指令 序列 。 这 些 action 语 名 代表 了 和 本 次 
讨论 无 关 的 三 地 址 代码 。 我 们 假定 过 程 c 的 代码 从 地 址 100 开 始 ， 而 过 
程 p 从 地 址 200 开 始 。 我 们 假定 每 个 AcTION 伪 指令 占用 20 个 字 节 。 我 们 还 
假定 这 些 过 程 的 活动 记录 以 静态 方式 分 配 ， 其 位 置 分 别 是 300 和 364。 








// 5 的 代码 





100: ACTION1 // actionl 的 代码 
120: ST 364, #140 // 在 位 置 364 上 存放 返回 地 址 140 
132: BR 200 // 调用 Pp 
140: ACTION, 
160: HALT // 返回 操作 系统 
// 万 的 代码 
200: ACTIONs 
220: BR *364 // 返回 在 位 置 364 保存 的 地 址 处 
// 300-363 存 放 c 的 活动 记录 
300: // 返回 地 址 
304: // 5 的 局 部 数据 
// 364-451 存放 PP 的 活动 记录 
364: // 返回 地 址 
368: // PP 的 局 部 数据 





图 8-4 ”静态 分 配 的 目标 代码 
从 地 址 100 开 始 的 指令 实现 了 过 程 c 的 语句 : 
action1; call P; action»; halt 


因此 程序 的 运行 从 地 址 100 上 的 指令 AcTION 开 始 。 在 地 址 120 上 的 ST 指 令 
把 返回 地 址 140 存 放 在 机 器 状态 字段 中 ， 也 就 是 p 的 活动 记录 的 第 一 个 字 
中 。 在 地 址 132 上 的 BR 指令 把 控制 转移 到 被 调用 过 程 p 的 目标 代码 的 第 一 


个 指令。 








执行 了 AcTION: 之 后 ， 位 于 地 址 220 的 跳 转 指令 被 执行 。 因 为 上 面 的 
调用 代码 序列 把 位 置 140 存 放 在 地 址 364 中 ， 因 此 当 位 于 地 址 220 的 BR 语 
句 执行 时 ，*364 代 表 140。 所 以 当 过 程 p 结 束 时 ， 控 制 流 返回 到 地 址 
140， 过 程 c 继 续 执行 。 


8.3.2 栈 分 配 








如 果 在 保存 活动 记录 时 使 用 相对 地 址 ， 静 态 分 配 就 可 以 变 成 栈 分 
配 。 但 是 在 栈 分 配方 式 中 ， 只 有 等 到 运行 时 刻 才 能 知道 一 个 过 程 的 活动 
记录 的 位 置 。 这 个 位 置 通常 存放 在 一 个 寄存 器 里 面 ， 因 此 活动 记录 中 的 
字 可 以 通过 相对 于 寄存 器 中 值 的 偏 移 量 来 访问 。 我 们 的 目标 机 的 下 标 地 
址 模式 可 以 方便 地 完成 这 种 访问 。 


正如 我 们 在 第 7 重 中 已 经 看 到 的 ， 活 动 记录 的 相对 地 址 可 以 用 相对 
于 活动 记录 中 的 任 一 已 知 位 置 的 侦 移 量 来 表示 。 为 方便 起 见 ， 我 们 将 在 
寄存 器 SP 中 维护 一 个 指 癌 栈 项 的 活动 记录 的 开始 处 的 指针 ， 这 样 束 可 以 
使 所 有 的 偏 移 量 都 是 正 数 。 当 发 生 过 程 调用 时 ， 调 用 过 程 增 加 sp 的 值 ， 
并 把 控制 传递 到 被 调用 过 程 。 在 控制 返回 到 调用 者 时 ， 我 们 减少 sP 的 
值 ， 从 而 释放 被 调用 过 程 的 活动 记录 。 


0 过 程 的 代码 把 sp 设置 成 内 存 中 栈 区 的 开始 位 置 ， 完 成 对 栈 的 
初始 


























LD SP, #stackStart // 初始 化 栈 
code for the first procedure 
HALT // 结束 执行 


一 个 过 程 调 用 指令 序列 增加 spP 的 值 ， 保 存 返 回 地 址 ， 并 把 控制 传递 到 被 
调用 过 程 : 


ADD SP, SP, #caller.recordSize // 增加 栈 指针 
ST 0O(SP), #here+16 // 保存 返回 地 址 
BR callee.codeArea // 转移 到 被 调用 过 程 


运算 分 量 #caller.recordSize 表 示 一 个 活动 记录 的 大 小 ， 因 此 App 指 令 使 得 
sP 指 向 下 一 个 活动 记录 。 在 sT 指 令 中 的 运算 分 量 #here+16 是 跟随 在 BR 之 
后 的 指令 的 地 址 ， 它 被 存放 在 spe 所 指向 的 地 址 中 。 


返回 指令 序列 包含 两 个 部 分 。 被 调用 过 程 使 用 下 面 的 指令 把 控制 传 
加 到 返回 地 址 : 


BR *0(SP) // 返回 给 调用 者 


在 BR 中 使 用 *@ (sp) 的 原因 是 我 们 需要 两 层 间 接 寻 址 : 9 (SP) 是 活 
动 记 录 的 第 一 个 字 所 在 的 位 置 ， 而 *@ (SP) 是 存放 在 那里 的 返回 地 址 。 











返回 指令 厅 列 的 第 二 部 分 在 调用 者 中 ， 这 个 序列 减少 sP 的 值 ， 因 此 
把 sP 恢 复 为 以 前 的 值 。 也 就 是 说 ， 在 减法 运算 之 后 ，sP 指 向 调用 者 的 活 
动 记录 的 开始 处 : 


SUB SP, SP, #caller.recordSize // 栈 指 针 减 1 


第 7 章 中 包含 了 有关 调用 指令 序列 以 及 在 调用 过 程 和 被 调用 过 程 之 
间 进 行 任务 分 配 的 折 训 方案 的 更 广泛 的 讨论 。 


图 8-5 中 的 程序 是 前 一 i 程序 的 一 个 抽象 。 过 程 q 
归 的 ， 因 此 在 同一 时 刻 可 能 有 多 个 活跃 的 q 的 活动 记录 。 


// nm 的 代码 
actioni 
call q 
action» 
halt 

// Pp 的 代码 
actions 
return 


// qq 的 代码 


action4 
Call P 
actions 
call q 
actione 
call q 
return 





图 8-5 例 8.4 的 代码 


假设 过 程 m、p 和 q 的 活动 记录 的 大 小 已 经 确定 ， 分 别 是 msize、psize 
和 qsize。 每 个 活动 记录 的 第 一 个 字 存 放 返 回 地 址 。 我 们 随意 地 假设 这 些 
过 程 的 代码 分 别 从 地 址 100、200 和 300 处 开始 ， 并 假设 栈 区 在 地 址 600 处 
开始 。 目 标 程序 在 图 8-6 中 显示 。 





100: 
108: 
128: 
136: 
144: 
152: 
160: 
180: 


200: 
220): 


300: 
320: 
328: 
336: 
344: 
352: 


LD SP, #600 
ACTION] 

ADD SP, SP, #7msize 
ST 0O(SP), #152 

BR 300 

SUB SP，SP， #7msize 
ACTION, 

HALT 


ACTIONs 
BR *0(SP) 


ACTION4 

ADD SP, SP, #qsize 
ST O(SP), #344 

BR 200 

SUB SP, SP, #4qsize 
ACTIONs 


// 的 代码 

// 初始 化 栈 

// actioni 的 代码 
// 调用 指令 序列 的 开始 
// 将 返回 地 址 压 入 栈 
// 调用 q 

// 恢复 SP 的 值 


// P 的 代码 
// 返回 
// 4 的 代码 


// 包含 有 跳 转 到 456 的 条 件 转 移 指令 


// 将 返回 地 址 压 入 栈 
// 调用 P 





图 8-6 栈 式 分 配 时 的 目标 代码 





372: 
380: 
388: 
396: 
404: 
424: 
432: 
440: 
448: 
456: 


600: 


ADD SP, SP, #4qsize 
BR 0O(SP), #396 

BR 300 

SUB SP, SP, #4qsize 
ACTION6 

ADD SP, SP, #gqsize 
ST O(SP), #440 

BR 300 

SUB SP, SP, #gqsize 
BR *0(SP) 


// 将 返回 地 址 压 入 栈 
// 调用 q 


// 将 返回 地 址 压 入 栈 
// 调用 q 


// 返回 
// 栈 区 的 开始 处 





我 们 假设 AcTIONs 包 含 了 一 个 条 件 跳 转 指 令 
列 开始 地 址 456; 


令 msize、psize 和 gsize 分 别 是 20、40 和 60。 


图 8-6 


( 续 ) 





， 跳 转 到 q 的 返回 代码 序 
否则， 递归 过 + 程 q 将 不 得 不 永远 调用 a 


在 地 址 100 处 的 第 


SN 


令 把 sp 初始 化 为 600， 即 栈 区 的 开始 地 址 。 在 控制 从 m 转 问 q 的 前 一 


刻 ，spP 中 的 值 是 620〈 因 为 msize 为 20) 。 随 后 当 q 调 用 p 时 ， 在 地 址 320 
处 的 指令 把 sp 增加 到 680， 即 p 的 活动 记录 的 开始 处 ， 当 控制 返回 到 q 的 
时 候 ，sP 回 复 到 620。 如 果 接 下 来 的 两 个 对 q 的 递归 调用 立刻 返回 ， 那 么 
执行 过 程 中 spP 的 最 大 值 就 是 680。 但 是 请 注意 ， 栈 区 中 被 使 用 的 最 后 的 
位 置 是 739， 因 为 从 位 置 680 开 始 的 q 的 活动 记录 总 共有 60 个 字 节 。 








8.3.3 ”名 字 的 运行 时 刻 地 址 


存储 分 配 策略 以 及 过 程 的 活动 记录 中 局 部 数据 的 布局 决定 了 如 何 访 
问 名 字 对 应 的 内 存 位 置 。 在 第 6 章 ， 我 们 假设 一 个 三 地 址 语句 中 的 名 字 
实际 上 是 一 个 指 回 该 名 字 的 符号 表 条 目的 指针 。 这 个 方法 有 一 个 极 大 的 
好 处 ， 它 使 得 编译 占 更 加 易于 移植 ， 因 为 即使 当 编 译 占 被 移植 到 使 用 不 
同 运 行 时 刻 组 织 方式 的 其 他 机 器 时 ， 其 前 端 也 不 需要 修改 。 但 是 从 太一 
个 方面 来 看 ， 在 生成 中 间 代 码 时 生成 特定 的 访问 步骤 对 于 一 个 优化 编译 
器 也 有 极 大 的 好 处 ， 因 为 这 使 得 优化 器 能 够 利用 原本 在 简单 的 三 地 址 语 
句 中 不 可 见 的 细 市 。 


在 任何 一 种 情况 下 ， 名 字 最 终 必 须 被 蔡 代 为 访问 存储 位 置 的 代码 。 
在 这 里 ， 我 们 考虑 简单 的 三 地 址 拷贝 语句 x=6 的 一 些 细节 。 假 设 在 处 理 
完 一 个 过 程 的 声明 部 分 后 ，x 的 符号 表 条 目 包含 了 x 的 相对 地 址 12。 如 果 
x 被 分 配 在 一 个 从 地 址 static 开 始 的 静态 分 配 区 域 中 ， 那 么 x 的 实际 运行 时 
刻 地 址 是 static+12。 虽 然 编 译 器 最 终 可 以 在 编译 时 刻 确定 static+12 的 
值 ， 但 是 在 生成 访问 该 名 字 的 中 间 代 码 时 可 能 还 不 知道 静态 区 域 的 位 
置 。 在 这 种 情况 下 ， 生 成 “计算 ”static+12 的 三 地 址 代码 是 有 意义 的 。 当 
然 我 们 要 理解 ， 这 个 计算 在 程序 运行 之 前 就 会 完成 : 它 或 者 在 代码 生成 
阶段 完成 ， 或 者 由 加 载 器 完成 。 那 么 ， 赋 值 语 句 x=0 被 翻译 成 


static[12] = 0 


如 果 静 态 区 从 地 址 100 开 始 ， 这 个 语句 的 目标 代码 是 

















LD 112, #0 


8.3.4 8.3 节 的 练习 


练习 8.3.1: 假设 使 用 栈 式 分 配 而 寄存 器 sP 指 癌 栈 的 顶端， 为 下 列 的 
三 地 址 语句 生成 代码 。 


call P 
call q 
return 
call r 
return 
return 


练习 8.3.2: 假设 使 用 栈 式 分 配 而 寄存 器 sP 指 占 栈 的 顶端 ， 为 下 列 的 
三 地 址 语句 生成 代码 。 


1)x=1 

2)x=a 

3)x=a+t+l 

4)x=a+b 

5 ) 两 个 语句 的 序列 
X=b*c 
y=a+x 





练习 8.3.3: 假设 使 用 栈 式 分 配 ， 且 假设 a 和 b 都 是 元 素 大 小 为 4 字 节 
的 数组 ， 再 次 为 下 面 的 三 地 址 语句 生成 代码 。 


1) 四 个 语句 的 序列 


X=a[ij 
y = b[j] 
a[li] = y 
b[jj = x 


2) 三 个 语句 的 序列 


8.4 ”基本 块 和 流 图 


本 节 介 绍 一 种 用 图 来 表示 中 间 代 码 的 方法 。 即 使 这 个 图 没有 显 式 地 
被 代码 生成 算法 生成 ， 它 对 于 讨论 代码 生成 也 是 有 帮助 的 。 上 下 文 信息 
有 助 于 更 好 地 生成 代码 。 正 如 我 们 将 在 8.8 节 看 到 的 ， 如 果 我 们 知道 程 
序 中 的 值 是 如 何 被 定 值 和 使 用 的 ， 我 们 就 可 以 更 好 地 分 配 寄存 器 。 我 们 
Rn 
令 选 择 工 作 。 


这 个 表示 方法 可 以 按照 如 下 方法 构造 : 

1) 把 中 间 代 码 划分 成 为 基本 块 (basic block) 。 每 个 基本 块 是 满足 
下 列 条 件 的 最 大 的 连续 三 地 址 指令 序列 。 

Q 控制 流 只 能 从 其 本 块 中 的 第 一 个 指令 进入 该 块 。 也 就 是 说 ， 没 
有 跳 转 到 基本 块 中 间 的 转移 指令 。 


加 除了 基本 块 的 最 后 一 个 指令 ， 控 制 流 在 离开 基本 块 之 前 不 会 停 
机 或 者 跳 转 。 


2) 基本 块 形成 了 流 图 (flow graph) 的 结 点 。 而 流 图 的 边 指 明了 哪 
些 基 本 块 可 能 紧 随 一 个 基本 块 之 后 运行 。 


从 第 9 章 开 始 ， 我 们 将 讨论 在 流 图 上 的 多 种 转换 。 这 些 转换 把 原 有 
的 中 间 代 码 转换 成 为 “优化 后 ”的 中 间 人 代码， 而 从 “优化 后 ”的 中 间 代 码 可 
以 生成 更 好 的 目标 代码 。 将 “优化 后 ”的 中 间 代 码 转换 为 目标 机 器 代码 的 
工作 将 使 用 本 章 中 的 代码 生成 技术 完成 。 

















中 断 的 影响 
有 人 认为 ， 只 要 控制 流 到 达 基 本 块 的 开始 处 就 必然 会 继续 执行 到 








基本 块 结束 处 ， 但 是 这 个 说 法 需要 一 些 仔 细 的 考虑 。 有 很 多 原因 会 导 
致 一 个 中 断 使 得 控制 流离 开 基 本 块 ， 甚 全 可 能 不 再 返回 ， 但 这 些 中 断 
并 没有 在 代码 中 显 式 地 反映 出 来 。 比 如 ， 一 个 像 x=y/z 这 样 的 指令 看 








起 来 不 影响 控制 流 。 但 是 如 果 z 是 0， 此 指令 实际 上 可 能 使 程序 异常 中 
让 as 





我 们 用 不 着 担心 这 种 可 能 性 。 理 由 如 下 : 构造 基本 块 的 目的 是 优 


化 代码 。 一 般 来 说 ， 当 一 个 中 断 发 生 时 ， 它 要 么 被 适当 处 理 然后 将 控 
制 返 回 到 引起 中 断 的 指令 ， 束 好 像 控 制 流 从 来 没有 离开 过 ; 要 么 程序 
会 中 止 并 报错 。 在 后 一 种 情况 下 ， 即 使 我 们 在 优化 时 假设 控制 流 会 一 
直到 达 基 本 块 的 结尾 ， 优 化 的 结果 也 不 会 有 错 ， 因 为 程序 本 来 就 不 会 
给 出 预计 的 结 





8.4.1 基本 块 


我 们 的 第 一 项 工作 是 把 一 个 三 地 址 指令 序列 分 割 成 为 基本 块 。 我 们 
以 第 一 个 指令 作为 一 个 新 基本 块 的 开始 ， 然 后 不 断 把 后 续 的 指令 加 进 
去 ， 直 到 我 们 碰 到 一 个 无 条 件 跳 转 、 条 件 跳 转 指令 或 者 下 一 个 指令 前 面 
的 标号 为 止 。 当 没有 跳 转 和 标号 时 ， 控 制 流 直接 从 一 个 指令 到 达 下 一 个 
指令 。 这 个 想法 在 下 面 的 算法 中 形式 化 地 表示 出 来 。 


苞 芝 末 把 三 地 址 指令 序列 划分 成 为 基本 块 。 

输入 : 一 个 三 地 址 指令 序列 。 

输出 :输入 序列 对 应 的 一 个 基本 块 列表 ， 其 中 每 个 指令 恰好 被 分 配 
个 基本 块 。 








党 = 

方法 ， 首先， 我 们 确定 中 间 代码 序列 中 哪些 指令 是 首 指令 
(leader) ， 即 某 个 基本 块 的 第 一 个 指令 。 跟 在 中 间 程 序 末端 之 后 的 指 
令 的 不 包含 在 首 指令 集合 中 。 选 择 首 指令 的 规则 如 下 : 

1) 中 间 代码 的 第 一 个 三 地 址 指令 是 一 个 首 指令 。 

2) 任意 一 个 条 件 或 无 条 件 转移 指令 的 目标 指令 是 一 个 首 指令 。 


3) 紧 跟 在 一 个 条 件 或 无 条 件 转移 指令 之 后 的 指令 是 一 个 首 指令 。 

















然后 ， 每 个 首 指 令 对 应 的 基本 块 包 括 了 从 它 自 己 开始 ， 直 到 下 一 个 
首 指令 〈 不 含 ) 或 者 中 间 程 序 的 结尾 指令 之 间 的 所 有 指令 。 


图 8-7 中 的 中 间 代 码 把 一 个 10x10 的 和 矩阵 a 设置 成 一 个 单位 矩阵 。 
这 上 友人 代码 来 自 哪 里 并 不 重要 ， 它 也 许 是 从 图 8-8 的 伪 代 码 中 翻译 得 到 
的 。 在 生成 这 个 中 间 代 码 的 时 候 ， 我 们 假设 每 一 个 实数 值 的 数组 元 素 占 
8 个 字 节 ， 且 窍 阵 a 按 行 存 放 。 











i 了 x= :0 peto (3) 


二 "入 
if i <= 10 goto (2) 
] 1 
5 TL 
t6 = 88 * 七 5 
a[t6] = 1.0 
1 二 下 .于 
if i <= 10 goto (13) 





图 8-7 把 一 个 10X10 的 算 阵 设置 成 单位 和 矩阵 的 中 间 代 码 


for i from 1 to 10 do 
for 7 from 1 to 10 do 
#6 | 


for i from 1 to 10 do 
gL 





图 8-8 图 8-7 的 源 代码 


首先 ， 根 据 算法 8.5 的 规则 《〈1) 可 知 第 一 个 指令 是 一 个 首 指令 。 为 
了 找到 其 他 的 首 指 令 ， 我 们 要 找到 跳 转 指令 。 在 这 个 例子 中 有 三 个 跳 转 
旨 令 (全 部 是 条 件 跳 转 指令 ) ， 即 指令 9、11 和 17。 根 据 规则 (2〉 ， 这 
些 跳 转 指令 的 目标 是 首 指令 ， 它 们 分 别 是 指令 3、2 和 13。 然 后 ， 根 据 规 
则 (3〉 ， 跟 在 一 个 跳 转 指 令 后 面 的 每 个 指令 都 是 首 指令 ， 即 指令 10 和 
12。 注 意 ， 在 这 段 代码 里 没有 跟 在 指令 17 后 面 的 指令 。 假 如 有 的 话 ， 那 


么 第 18 个 指令 也 是 一 个 首 指 令 。 


我 们 可 以 得 出 结论 : 指令 1、2、3、10、12 和 13 是 首 指令 。 每 个 首 
站 令 对 应 的 基本 块 包括 了 从 它 开始 直到 下 一 个 首 指令 之 前 的 所 有 指令 。 
因此 ， 指 令 1 的 基本 块 就 是 指令 1， 指 令 2 的 基本 块 是 指令 2。 但 首 指 令 3 
的 基本 块 包含 了 从 指令 3 到 指令 9 的 所 有 指令 。 指 令 10 的 基本 块 是 10 和 
11; 指令 12 的 基本 块 仅 仅 包 含 指令 12， 而 指令 13 的 基本 块 是 指令 13 到 
17。 

















8.4.2 “后续 使 用 信息 


知道 一 个 变量 的 值 接 下 来 会 在 什么 时 候 使 用 对 于 生成 良好 的 代码 是 
非常 重要 的 。 如 果 一 个 变量 的 值 当前 存放 在 一 个 寄存 器 中 ， 且 之 后 一 直 
不 会 被 使 用 ， 那 么 这 个 寄存 器 就 可 以 被 分 派 给 另 一 个 变量 。 


在 一 个 三 地 址 语句 中 对 一 个 名 字 的 使 用 〈use) 的 定义 如 下 。 假 设 
三 地 址 语句 ji 给 x 赋 了 一 个 值 。 如 果 语 句 j 的 一 个 运算 分 量 为 x， 并 且 从 语 
句 i 开始 可 以 通过 未 对 x 进行 赋值 的 路 径 到 达 语 句 j， 那 么 我 们 说 语句 j 使 
用 了 在 语句 i 处 计算 得 到 的 x 的 值 。 我 们 可 以 进一步 说 x 在 语句 i 处 活跃 


(live) 。 


对 每 个 类 似 于 x=y+z 的 三 地 址 语句 ， 我 们 希望 确定 对 x、y 和 z 的 下 一 
次 使 用 是 什么 。 当 前 我 们 不 考虑 在 包含 本 三 地 址 语句 的 基本 块 之 外 的 使 
用 。 








我 们 用 来 确定 活跃 性 和 后 续 使 用 信息 的 算法 对 每 个 基本 块 进行 一 次 
反问 的 志 历 。 我 们 把 得 到 的 信息 存放 到 符号 表 中 。 使 用 算法 8.5 中 给 出 
的 方法 ， 我 们 可 以 很 容易 地 通过 扫描 一 个 三 地 址 语句 流 找到 各 个 基本 块 





的 结尾 。 因 为 过 程 可 能 有 副作用 ， 为 方便 起 见 ， 我 们 假设 每 一 个 过 程 调 
用 指令 是 一 个 新 的 基本 块 的 开始 。 


对 一 个 基本 块 中 的 每 一 个 语句 确定 活跃 性 与 后 续 使 用 信息 。 


输入 : 一 个 三 地 址 语句 的 基本 块 B， 我 们 假设 在 开始 的 时 候 符 写 表 
显示 B 中 的 所 有 非 临 时 变量 都 是 活跃 的 。 


输出 : 对 于 B 的 每 一 个 语句 i: x=yt+z， 我 们 将 x、y 及 z 的 活跃 性 信息 
及 后 续 使 用 信息 关联 到 i。 


方法 : 我 们 从 B 的 最 后 一 个 语句 开始 ， 反 问 扫 描 a 到 B 的 开始 处 。 对 
于 每 个 语句 i: x=y+z， 我 们 做 下 面 的 处 理 : 


1) 把 在 符号 表 中 找到 的 有 关 x、y 和 z 的 当前 后 续 使 用 和 活跃 性 信息 
与 语句 i 关联 起 来 。 

2) 在 符号 表 中 ， 设 置 x 为 “不 活跃 ”和 “无 后 续 使 用 ”。 

3) 在 符号 表 中 ， 设 置 y 与 z 为 “活跃 "?， 并 把 它们 的 下 一 次 使 用 设置 
为 语句 i 

在 这 里 ， 我 们 使 用 + 作为 代表 任意 运算 符 的 符号 。 如 果 三 地 址 语句 i 
形 如 x=+y 或 者 x=y， 那 么 处 理 步 又 依然 和 上 面相 同 ， 只 是 忽略 了 对 z 的 处 


理 。 注 意 ， 步 又 (2) 和 步骤 (3) 的 顺序 不 能 颠倒 ， 因 为 x 可 能 就 是 y 或 
者 z。 














8.4.3 流 图 





当 将 一 个 中 间 代 码 程 序 划 分 成 为 基本 块 之 后 ， 我 们 用 一 个 流 图 来 表 
示 它 们 之 间 的 控制 流 。 注 图 的 结 点 束 是 这 些 基本 块 。 从 基本 块 B 到 基本 
块 C 之 间 有 一 条 边 当 且 仅 当 基 本 块 C 的 第 一 个 指令 可 能 紧 跟 在 B 的 最 后 一 
个 指令 之 后 执行 。 存 在 这 样 一 条 边 的 原因 有 两 种 : 


。 有 一 个 从 B 的 结尾 跳 转 到 C 的 开头 的 条 件 或 无 条 件 跳 转 语句 。 
。 按照 原来 的 三 地 址 语句 序列 中 的 顺序 ，C 紧 跟 在 B 之 后 ， 且 B 的 结尾 








不 存在 无 条 件 跳 转 语句 。 


我 们 说 B 是 C 的 前 驱 (predecessor) ， 而 C 是 B 的 一 个 后 继 
(successor) 。 


我 们 通常 会 增加 两 个 分 别称 为 “入 口 ”(entry) 和 “出 口 ”(exit) 的 
结 点 。 它 们 不 和 任何 可 执行 的 中 间 指 令 对 应 。 从 入 口 到 流 图 的 第 一 个 可 
执行 结 点 《 即 包 含 了 中 间 代 码 的 第 一 个 指令 的 基本 块 ) 有 一 条 边 。 从 任 
何 包 含 了 可 能 是 程序 的 最 后 执行 指令 的 基本 块 到 出 口 有 一 条 边 。 如 采 程 
序 的 最 后 指令 不 是 一 个 无 条 件 转移 指令 ， 那 么 包含 了 程序 的 最 后 一 条 指 
令 的 基本 块 是 出 口 结 点 的 一 个 前 驱 。 但 任何 包含 了 跳 转 到 程序 之 外 的 跳 
转 指 令 的 基本 块 也 是 出 口 结 点 的 前 驱 。 


BR 
结 点 指向 基本 块 Bj， 因为 B, 包 含 了 这 个 程序 的 第 一 个 指令 。B 的 唯一 后 
继 是 B,， 因 为 B; 的 结尾 不 是 一 个 无 条 件 跳 转 指 令 ， 且 B, 的 首 指令 紧 跟 在 
B; 的 结尾 指令 之 后 。 














ENTRY 




















了 
Bi i=1 
了 
B 导入 
Y 
tl = 10 * i 
t2> = ti1 +j 
ta = 8 * t2 
Bs t4 = ts - 88 
alts] =0.0 
卫生 本 站 浊 


if j <= 10 goto B; 

















B i=i+1 
4 if i <= 10 goto 也 
Bs 王莽 





1 


者 站 各 福 甩 二 

te = 88 * ts 

Be a[te] = 1.0 
i=i+ 和 4 

if i <= 10 goto Be 


图 8-9 基于 图 8-7 构 造 的 流 图 
基本 块 B3 有 两 个 后 继 。 其 中 的 一 个 是 它 本 号 ， 因 为 B3 的 首 指令 《〈 即 


和 令 3) 是 B3 结 尾 处 的 条 件 跳 转 指令 《〈 即 指令 9) 的 目标 。 男 一 个 后 继 是 
B4， 因 为 控制 流 可 能 罕 越 B3 结 尾 处 的 条 件 跳 转 指 令 而 到 达 B4 的 首 指 令 。 


只 有 Be 指 疝 流 图 的 出 口 结 点 ， 因 为 到 达 紧 跟 在 流 图 对 应 的 程序 之 后 
的 代码 的 唯一 方式 是 穿越 B6 结 尾 处 的 条 件 跳 转 指令 。 














8.4.4 流 图 的 表示 方式 


首先 ， 从 图 8-9 中 可 以 看 出 ， 在 流 图 里 面 把 到 达 指 令 的 序 写 或 标号 
的 跳 转 指令 丛 换 为 到 达 基 本 块 的 跳 转 ， 这 么 做 是 很 正常 的 。 回 忆 一 下 ， 





所 有 条 件 或 无 条 件 跳 转 指 令 总 是 跳 转 到 茶 些 基本 块 的 首 指令 ， 而 现在 这 
些 跳 转 指令 指向 了 相应 的 基本 块 。 这 么 做 的 原因 是 ， 在 流 图 构造 完成 之 
后 经 常会 对 多 个 基本 块 中 的 指令 做 出 实质 性 的 改变 。 如 果 跳 转 的 目标 是 
指令 ， 我 们 将 不 得 不 在 每 次 改变 了 菏 个 目标 指令 之 后 修正 跳 转 指令 的 目 


标 。 

















流 图 就 是 通 凋 的 图 ， 它 可 以 用 任何 适合 表示 图 的 数据 结构 来 表示 。 
结 点 《〈 即 基本 块 ) 的 内 容 需 要 有 它们 目 己 的 表示 方式 。 我 们 可 以 用 一 个 
指 癌 该 基本 块 在 三 地 址 指令 数组 中 的 首 指令 的 指针 ， 再 加 上 基本 块 的 指 
令 数 量 或 一 个 指向 结尾 指令 的 指针 来 表示 结 点 的 内 容 。 但 是 ， 因 为 我 们 
可 能 会 频 蚂 改变 一 个 基本 块 中 的 指令 数量 ， 所 以 为 每 个 基本 块 创建 一 个 
指令 链表 是 一 种 高 效 的 表示 方法 。 

















8.4.5 循环 


像 while 语 句 、do-while 语 句 和 for 语 句 这 样 的 程序 设计 语言 构造 自然 
地 把 循环 引入 到 程序 中 。 因 为 事实 上 每 个 程序 会 花 很 多 时 间 执 行 循环 ， 
所 以 对 于 一 个 编译 器 来 说 ， 为 循环 生成 优良 的 代码 就 变 得 非常 重要 。 很 
多 代码 转换 依赖 于 对 流 图 中 “循环 ”的 识别 。 如 果 下 列 条 件 成 立 ， 我 们 束 
说 流 图 中 的 一 个 结 点 集合 L 是 一 个 循环 。 

1) 在 L 中 有 一 个 被 称 为 循环 入 口 (loop entry) 的 结 点 ， 它 是 唯一 的 
其 前 驱 可 能 在 L 之 外 的 结 点 。 也 整 是 说 ， 从 整个 流 图 的 入 口 结 点 开始 到 
LL 中 的 任何 结 点 的 路 径 都 必然 经 过 循环 入 口 结 点 ， 并 且 这 个 循环 入 口 结 
点 不 是 整个 流 图 的 入 口 结 点 本 身 。 


2) 工 中 的 每 个 结 点 都 有 一 个 到 达 L 的 入 口 结 点 的 非 空 路 径 ， 并 且 该 
路 径 全 部 在 L 中 。 


图 8-9 中 的 流 图 有 三 个 循环 : 
1) B3 自 身 
2) Be 自身 





BO 


其 中 的 前 两 个 循环 都 由 单一 结 点 组 成 ， 这 些 结 点 都 有 到 其 自身 的 
边 。 比 如 ，B3 形 成 一 个 以 B3 本 里 为 入 口 结 点 的 循环 。 请 注意 ， 循 环 的 第 
二 个 条 件 要 求 有 一 个 从 Bs 到 本 身 的 非 空 路 径 。 因 此 ， 像 B, 这 样 的 单一 结 
扩 〔 它 没有 一 条 B, 一 B, 的 边 ) 不 是 循环 ， 因 为 没有 从 B; 到 其 自身 ， 且 在 
集合 {B,} 中 的 非 空 路 径 。 


第 三 个 循环 L= {(B,，B3，B4} 的 循环 入 口 结 点 是 B,。 请 注意 ， 这 
三 个 结 点 中 只 有 B5 有 一 个 不 在 LL 中 的 前 驱 B1。 而 且 ， 这 三 个 结 点 中 都 有 
在 L 中 且 到 达 B, 的 非 空 路 径 。 比 如 ， 从 B5 开 始 就 有 路 径 
B, ~» Bs— Bs —B,. 





8.4.6 ”8.4 节 的 练习 


练习 8.4.1: 图 8-10 是 一 个 简单 的 矩阵 乘法 程序 。 


for (i=0; i<n; i++) 
for (j=0; j<n; j++) 
elij[i] = 0.0; 
for (i=0; i<n; i++) 


for (j=0; j<n; j++) 
for (k=0; k<n; k++) 
c[ij[j] = c[ij[j] + a[i] [k]*b[k] [j]; 





图 8-10 ”一 个 矩阵 相 乘 算法 


1) 假设 矩阵 的 元 素 是 需要 8 个 字 市 的 数值 ， 而 且 和 矩阵 按 行 存放 。 把 
程序 翻译 成 为 我 们 在 本 节 中 一 直 使 用 的 那 种 三 地 址 语句 。 


2) 为 (1) 中 得 到 的 代码 构造 流 图 。 
3) 找 出 在 (2) 中 得 到 的 流 图 的 循环 。 


练习 8.4.2: 图 8-11 中 是 计算 从 2~n 之 间 素 数 个 数 的 代码 。 它 在 一 个 
适当 大 小 的 数组 a 上 使 用 得 法 来 完成 计算 。 也 就 是 说 ， 最 后 a [ij] 为 真 仅 





当 没有 小 于 等 于 的 质数 可 以 整除 1。 我 们 一 开始 把 所 有 的 a [i] 初始 
化 为 TRUE; 如 果 我 们 找到 了 j 的 一 个 因子 ， 束 把 a [jj 设置 为 FALSE。 


for (i=2; i<=n; i++) 
a[i] = TRUE; 

count = 0; 

s = sqgrt(n); 

for (i=2; i<=s; i++) 


if (a[i]) /* 已 知 i 是 一 个 素数 */ 1{ 
Count++; 
for (j=2*i; Jj<=n; j = j+i) 


a[j] = FALSE; /* i 的 倍数 都 不 是 素数 */ 





图 8-11 得 法 选取 素数 的 代码 


1) 把 程序 翻译 成 为 我 们 在 本 市 中 使 用 的 那 种 三 地 址 语句 序列 。 这 
里 假设 一 个 整数 需要 4 个 字 节 存放 。 


2) 为 在 (1) 中 得 到 的 代码 构造 流 图 。 
3) 找 出 在 (2) 中 得 到 的 流 图 的 循环 。 


8.5 ”基本 块 的 优化 


仅仅 明 过 对 各 个 基本 块 本 映 进行 局 部 优化 ， 我 们 就 党 第 可 以 实质 性 
地 降低 代码 运行 所 需 的 时 间 。 更 加 彻 夺 的 全 局 优化 将 从 第 9 章 开始 讨 
论 。 全 局 优化 将 检查 信息 是 如 何在 一 个 程序 的 多 个 基本 英之 间 流 动 的 。 
全 局 优化 是 一 个 很 复杂 的 主题 ， 它 将 考虑 很 多 不 同 的 技术 。 


8.5.1 基本 块 的 DAG 表 示 


很 多 重要 的 局 部 优化 技术 首先 把 一 个 基本 块 转换 成 为 一 个 DAG (有 
向 无 环 图 ) 。 在 6.11 节 中 ， 我 们 介绍 了 用 于 表示 简单 表达 式 的 DAG。 这 
个 想法 被 自然 地 扩展 到 在 一 个 基本 块 中 创建 的 表达 式 的 集合 。 我 们 按照 
如 下 方式 为 一 个 基本 块 构造 DAG: 


1) 基本 块 中 出 现 的 每 个 变量 有 一 个 对 应 的 DAG 的 结 把 表示 其 初始 
值 。 








2) 基本 块 中 的 每 个 语句 s 都 有 一 个 相关 的 结 点 N。N 的 子 结 点 是 基 
本 块 中 的 其 他 语句 的 对 应 结 点 。 这 些 语 句 是 在 s 之 前 、 最 后 一 个 对 s 所 使 
用 的 某 个 运算 分 量 进行 定 值 的 语句 。 山 

3) 结 点 N 的 标号 是 s 中 的 运算 符 ， 同 时 还 有 一 组 变量 被 关联 到 N， 
表示 s 是 在 此 基本 块 内 最 晚 对 这 些 变 量 进行 定 值 的 语句 。 

4) 某 些 结 点 被 指明 为 输出 结 点 (output node) 。 这 些 结 点 的 变量 
在 基本 块 的 出 口 处 活跃 。 也 就 是 说 ， 这 些 变 量 的 值 可 能 以 后 会 在 流 图 的 
另 一 个 基本 块 中 被 使 用 到 。 计 算得 到 这 些 “ 活 跃 变量 ”是 全 局 数据 流 分 析 
的 问题 ， 将 在 9.2.5 节 中 讨论 。 


基本 块 的 DAG 表 示 使 我 们 可 以 对 基本 块 所 代表 的 代码 进行 一 些 转 
换 ， 以 改进 代码 的 质量 。 


1) 我 们 可 以 消除 局 部 公共 子 表达 式 (local common 





























subexpression ) 。 有 所谓 公共 子 表达 式 就 是 重复 计算 一 个 已 经 计算 得 到 的 
值 的 指令 。 
2) 我 们 可 以 消除 死 代码 (dead code) ， 即 计算 得 到 的 值 不 会 被 使 


的 指令 。 


3) 我 们 可 以 对 相互 独立 的 语句 进行 重新 排序 ， 这 样 的 重新 排序 可 
以 降低 一 个 临时 值 需要 保持 在 寄存 器 中 的 时 间 。 


4) 我 们 可 以 使 用 代数 规则 来 重新 排列 三 地 址 指令 的 运算 分 量 的 顺 
序 。 这 么 做 有 时 可 以 简化 计算 过 程 。 
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检测 公共 子 表达 式 的 方法 是 这 样 的 。 当 一 个 新 的 结 点 M 将 被 加 入 到 
DAG 中 时 ， 我 们 检查 是 否 存在 一 个 结 点 N， 它 和 M 具 有 同样 的 运算 符 和 
子 结 点 ， 且 子 结 点 顺序 相同 。 如 果 存 在 这 样 的 结 点 ，N 计 算 的 值 和 M 计 
算 的 值 是 一 样 的 ， 因 此 可 以 用 N 蔡 换 M。 在 6.11 节 中 ， 这 个 技术 被 称 为 
检测 公共 子 表 达 式 的 “ 值 编码 ”方法 。 


下 面 的 基本 块 的 DAG 见 图 8-12。 





b ,d 


bo co 
图 8-12” 例 8. 10 中 的 基本 块 的 DAG 


a=b+c 
b=a-d 
=+e 
d=a-d 


当 我 们 为 第 三 个 语句 c=b+c 构 造 结 点 的 时 候 ， 我 们 知道 bfc 中 pb 的 使 
用 指向 图 8-12 中 标号 为 -的 结 点 。 因 为 这 个 结 点 是 b 的 最 近 的 定 值 。 因 
此 ， 我 们 不 会 把 语句 1 和 语句 3 所 计算 的 值 混 淆 。 
然而 ， 对 应 于 第 四 个 语句 d=a-d 的 结 点 的 运算 符 是 -， 且 它 的 子 结 点 
是 标记 有 变量 a 和 de 的 结 点 。 因 为 运算 符 和 子 结 点 都 和 语句 2 对 应 的 结 点 
相同 ， 我 们 不 需要 创建 这 个 结 点 ， 而 是 把 d 加 到 这 个 标记 为 -的 结 点 的 定 
值 变量 表 中 。 
因为 在 图 8-12 的 DAG 中 只 有 三 个 非 叶 子 结 点 ， 看 起 来 例 8.10 中 的 基 
本 块 可 以 替换 为 一 个 只 有 三 个 语句 的 基本 块 。 实 际 上 ， 假 如 b 在 这 个 基 
本 块 的 出 口 点 不 活跃 ， 我 们 不 需要 计算 变量 b， 可 以 使 用 d 来 存放 图 8-12 
中 标号 为 -的 结 点 所 代表 的 值 。 这 个 基本 块 就 变 成 了 : 
a= b+c 
d=a—-d 
C=d+c 





但 是 ， 如 果 b 和 d 都 在 出 口 处 活跃 ， 我 们 就 必须 使 用 第 四 个 语句 把 值 
从 一 个 变量 复制 到 另 一 个 。 包 


当 我 们 寻找 公共 子 表达 式 的 时 候 ， 我 们 实际 上 是 寻找 不 管 如 何 
计 虹 一 定 能 得 到 相同 结果 值 的 表达 式 。 因 此 ，DAG 方 法 不 能 看 到 下 和 面 的 
事实 ， 即 下 面 的 语句 序列 


b 
b 
C 
b 


中 ， 第 一 和 第 四 个 语句 实际 上 计算 的 是 同一 个 表达 式 的 值 ， 即 berce。 也 
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就 是 说 ， 虽 然 b 和 c 在 第 一 个 和 第 四 个 语句 之 间 改 变 了 ， 但 它们 的 和 仍 保 
持 不 变 ， 因 为 b+c= (b-d) + (c+td) 。 这 个 序列 的 DAG 见 图 8-13。 它 没 
有 显示 出 任何 公共 子 表达 式 。 但 是 ， 如 8.5.4 节 中 将 要 讨论 的 ， 在 DAG 中 
应 用 代数 恒等式 可 以 揭示 出 这 样 的 等 值 关 系 。 


oF 
oF ct 为 ， 


bo CO do 
图 8-13 ” 例 8. 11 中 的 基本 块 的 DAG 


8.5.3 ”消除 死 代 三 


在 DAG 上 消除 死 代 码 的 操作 可 以 按照 如 下 方式 实现 。 我 们 从 一 个 
DAG 上 删除 所 有 没有 附加 活跃 变量 的 根 结 点 〈 即 没有 父 结 点 的 结 点 )。 
ds 6 


TT 如 果 图 8-13 中 的 a 和 b 是 活路 变量， 而 c 和 e 不 是 ， 我 们 可 以 立刻 
滑 除 剑 记 为 e 的 根 结 点 。 然 后 标记 为 c< 的 结 点 就 变 成 根 结 点 ， 也 可 以 被 删 
除 。 标 记 为 a 和 b 的 结 点 被 保留 下 来 ， 因 为 它们 都 附 有 活跃 变量 。 


8.5.4 ”代数 恒等式 的 使 用 


代数 恒等式 表示 基本 块 的 另 一 类 重要 的 优化 方法 。 比 如 ， 我 们 可 以 
使 用 诸如 


X+0=0+Xx=X Xx-0=X 
XXx1=1xx=x Xx/1=x 
这 样 的 恒等式 来 从 一 个 基本 块 中 消除 计算 步 又 。 
另 一 类 代数 优化 是 局 部 强度 消减 (reduction in strength) ， 就 是 把 
一 个 代价 较 高 的 运算 蔡 换 为 一 个 代价 较 低 的 运算 。 比 如 : 


代价 较 融 的 代价 较 低 的 
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第 三 种 相关 的 优化 是 常量 合并 〈constant folding) 。 使 用 这 种 方法 
时 ， 我 们 在 编译 时 刻 对 常量 表达 式 求 值 ， 并 把 此 常量 表达 式 蔡 换 为 求 出 
的 值 问 。 因 此 ， 表 达 式 2*3.14 可 以 被 蔡 换 为 6.28。 在 实践 中 ， 因 为 在 程 
序 中 频繁 使 用 符号 常量 ， 所 以 会 出 现 常量 表 达 式 。 


DAG 的 构造 过 程 可 以 帮助 我 们 使 用 这 些 转 换 ， 以 及 其 他 的 通用 代数 
转换 规则 ， 比 如 交换 律 和 结合 律 等 。 比 如 ， 假 设 语言 的 参考 手册 确定 * 
是 可 交换 的 ， 也 就 是 说 ，x*y=y*x。 在 创建 一 个 标记 为 * 且 左右 子 结 点 分 
别 是 M 和 N 的 新 结 点 时 ， 我 们 总 是 检查 这 样 的 结 上 是否 已 经 存在 。 然 
而 ， 因 为 * 是 可 交换 的 ， 所 以 我 们 还 应 该 检查 是 否 存 在 一 个 标记 为 * 且 左 
右 子 结 点 分 别 是 N 和 M 的 结 点 。 


< 和 = 这 样 的 关系 运算 符 有 时 会 产生 意料 之 外 的 公共 子 表达 式 。 比 
如 ， 条 件 表 达 式 x>y 也 可 以 通过 将 参数 相 减 并 测试 由 减法 运算 设置 的 条 
件 代 码 来 测试 。 因 此 ， 对 x-y 和 x>y， 只 需要 生成 一 个 DAG 结 点 凶 。 


结合 律 也 可 以 用 于 揭示 公共 子 表达 式 。 比 如 ， 如 果 源 程序 中 包含 如 
下 的 赋值 语句 : 
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则 可 能 生成 下 面 的 中 间 代 码 : 


a=b+c 
t=c+d 
ee = 七 二 hb 


如 果 t 没 有 在 基本 块 之 外 使 用 ， 通 过 应 用 + 的 交换 律 和 结合 律 ， 我 们 
可 以 把 这 个 序列 改 为 : 


a=b+c 
e= a+d 


编译 占 的 设计 者 应 该 仔细 阅读 语言 的 参考 手册 ， 以 决定 可 以 重新 排 
列 哪些 计算 。 因 为 计算 机 算术 (因为 上 淤 或 下 洲 等 原因 〉 可 能 不 一 定 遵 
守 数 学 上 的 代数 恒等式 。 比 如 ，Fortran 语 言 标 准 说 ， 编 译 器 可 以 通过 任 
意 数 学 上 等 价 的 表达 式 来 求 值 ， 前 提 是 不 能 违反 原来 表达 式 的 括号 的 一 
致 性 名 。 因 此 ， 编 译 器 可 以 用 xx* 〈y-z) 的 方式 来 计算 x*y - x*z， 但 是 它 
不 能 以 〈a+b) -c 的 方式 计算 a+ (b-c) 。 因 此 ， 如 果 一 个 Fortran 编 译 器 
0 它 必须 跟踪 源 语言 表达 式 中 哪些 地 方 有 

es 











8.5.5 ”数组 引用 的 表示 


急 看 上 去 ， 数 组 下 标 指令 似乎 可 以 像 其 他 的 运算 那样 处 理 。 比 如 ， 
考虑 下 列 的 三 地 址 指令 序列 : 


x = a[il] 
a[jj = y 
二 Li] 


如 果 我 们 把 a [i] 当 作 是 一 个 和 ati 类 似 的 关于 a 和 i 的 普通 运算 ， 那 


么 a [i 的 两 次 使 用 看 起 来 好 像 是 一 个 公共 于 表达 式 。 在 这 种 情况 下 ， 
我 们 可 能 会 把 第 三 个 指令 z=a [i] 优化 为 z=x。 然 而 ， 因 为 j 可 能 等 于 i， 
人 [i] 的 值 。 因 此 ， 这 种 优化 是 不 合法 





在 DAG 中 ， 表 示 数 组 访问 的 正确 方法 如 下 。 


1) 从 一 个 数组 取 值 并 赋 给 其 他 变量 的 运算 (比如 x=a [i] ) 用 一 个 
新 创建 的 运算 符 为 = [] 的 结 点 表示 。 这 个 结 点 的 左右 子 结 点 分 别 代 表 数 
组 初始 值 〈 本 例 中 是 as) 和 下 标 i。 变 量 x 是 这 个 结 点 的 标号 之 一 。 


2) 对 数组 的 赋值 (比如 a [j] = y) 用 一 个 新 创建 的 运算 符 为 [] = 
的 结 点 来 表示 。 这 个 结 点 的 三 个 子 结 点 分 别 表示 ae、j 和 y。 没 有 变量 用 
这 个 结 点 标号 。 不 同 之 处 在 于 此 结 点 的 创建 杀 死 了 所 有 当前 已 经 建立 
的 ， 其 值 依赖 于 ag 的 结 点 。 一 个 被 杀 死 的 结 点 不 可 能 再 获得 任何 标号 。 
也 就 是 说 ， 它 不 可 能 成 为 一 个 公共 子 表达 式 。 


此 本 








x = a[i] 
a[j] = y 
i 守业 [ 主 ] 


的 DAG 见 图 8-14。 对 应 于 x 的 结 点 N 首 先 被 创建 ， 但 是 当 标 号 为 [] = 的 
结 点 被 创建 时 ，N 就 被 杀 死 了 。 因 此 当 z 的 结 点 被 建立 时 ， 它 不 会 被 认为 
和 N 等 同 ， 而 是 必须 创建 一 个 具有 同样 的 运算 分 量 ae 和 ie 的 新 结 点 。 








图 8-14 一 个 数组 赋值 序列 的 DAG 


取 汪 站 ”有 时 即使 某 个 结 点 的 所 有 子 结 点 都 没有 像 例 8.13 中 的 a 那样 的 
附加 数组 变量 ， 它 也 必须 被 杀 死 。 类 似 地 ， 如 果 一 个 结 点 具有 数组 后 

代 ， 即 使 它 的 子 结 点 都 不 是 数组 结 点 ， 它 也 可 以 杀 死 别 的 结 点 。 例 如 考 
虑 下 面 的 三 地 址 代码 


b= 12+&a 
x = b[il] 
b[j] = y 


这 里 的 情况 是 ， 为 了 效率 方面 的 原因 ，b 被 定 值 为 数组 a 中 的 一 个 位 置 。 
例如 ， 如 宁 a 的 元 素 长 度 是 4 个 字 节 ， 那 么 bg 代表 了 a 的 第 四 个 元 素 。 如 宋 
j 和 和 i 表示 同一 个 值 ， 那 么 b [i] 和 b [j] 代表 了 同一 个 位 置 。 因 此 ， 很 重 
要 的 一 件 事情 就 是 让 第 三 个 指令 bp [j] =y 共 死 带 有 附加 变量 x 的 结 点 。 然 
而 ， 正 如 我 们 在 图 8-15 中 看 到 的 ， 被 杀 的 结 皮 和 欠 死 被 杀 结 点 的 结 反 都 
把 ae 作为 孙 结 点 ， 而 不 是 子 结 点 。 











图 8-15 ”即使 没有 把 一 个 数组 作为 子 结 点 ， 一 个 结 点 也 可 能 杀 死 对 该 数组 的 使 用 


8.5.6 ”指针 赋值 和 过 程 调 用 


当 我 们 像 下 面 的 赋值 语句 


那样 ， 通 过 指针 进行 间接 赋值 时 ， 我 们 并 不 知道 p 和 q 指 癌 哪里 。 从 效果 
看 ，x="p 是 对 任意 变量 的 使 用 ， 而 "q=y 可 能 对 任意 一 个 变量 赋值 。 其 结 
果 是 ， 运 算 符 =* 必 须 把 当前 所 有 带 有 附加 标识 符 的 结 氮 当 作 其 参数 。 但 
是 这 么 做 会 影响 死 代 码 的 消除 过 程 。 更 加 重要 的 是 ，*= 运 算 符 会 把 至 今 
为 止 构造 出 来 的 DAG 中 的 其 他 结 扣 全 部 杀 死 。 


我 们 可 以 进行 一 些 全 局 指针 分 析 ， 以 便 把 一 个 指针 在 代码 中 茶 个 位 
置 上 可 能 指向 的 变量 限制 在 一 个 较 小 的 子 集 内 。 即 使 是 局 部 分 析 也 可 以 
限制 一 个 指针 指向 的 范围 。 比 如 ， 对 于 下 面 的 序列 


P = &x 
py 


我 们 知道 是 x( 而 不 是 其 他 变量 ) 被 赋予 y 的 值 。 因 此 ， 我 们 只 需要 杀 死 
以 x 为 附加 变量 的 结 点 ， 不 需要 杀 死 其 他 结 点 。 


过 程 调 用 和 通过 指针 赋值 很 相似 。 在 缺乏 全 局 数据 流 信息 的 情况 
下 ， 我 们 必须 假设 一 个 过 程 调用 使 用 和 改变 了 它 访问 的 所 有 数据 。 因 
此 ， 如 果 变 量 x 在 一 个 过 程 P 的 访问 范围 之 内 ， 对 了 的 调用 不 仅 使 用 了 以 x 
为 附加 变量 的 结 点 ， 还 杀 死 了 这 个 结 点 。 




















8.5.7 从 DAG 到 基本 块 的 重组 





对 DAG 的 各 种 优化 处 理 可 以 在 生成 DAG 图 时 进行 ， 也 可 以 在 DAG 
构造 完成 后 通过 对 DAG 的 运算 完成 。 在 完成 这 些 优化 处 理 之 后 ， 我 们 就 
可 以 根据 优化 得 到 的 DAG 重 组 生成 相应 基本 块 的 三 地 址 代码 。 对 每 个 具 
有 一 个 或 多 个 附加 变量 的 结 点 ， 我 们 构造 一 个 三 地 址 语句 来 计算 其 中 某 
个 变量 的 值 。 我 们 倾向 于 把 计算 得 到 的 结果 赋 给 一 个 在 基本 块 出 口 处 活 
跃 的 变量 。 但 是 ， 如 果 我 们 没有 全 局 活跃 变量 的 信息 作为 依据 ， 就 要 假 
设 程序 的 所 有 变量 都 在 基本 块 出 口 处 活跃 (但 是 不 包含 编译 器 为 了 处 理 
表达 式 而 生成 的 临时 变量 ) 。 


如 果 结 点 有 多 个 附加 的 活跃 变量 ， 我 们 残 必 须 引入 复制 语句 ， 以 便 








给 每 一 个 变量 都 赋予 正确 的 值 。 有 时 我 们 可 以 通过 全 局 优化 技术 ， 设 法 
用 其 中 的 一 两 个 变量 来 将 代 其 他 变量 ， 从 而 消除 这 些 复制 语句 。 


| 回顾 一 下 图 8-12 中 的 DAG。 在 例 8.10 后 面 的 讨论 中 ， 我 们 确定 
[ 杂 b 在 基本 块 的 出 口 处 不 活跃 ， 那 么 下 面 的 三 个 语句 


a= b+c 
d a—-4d 
运 d+i+c 


就 足以 重建 那个 基本 块 了 。 第 三 个 指令 c=d+c 必 须 使 用 d 而 不 是 p 作 为 运 
算 分 量 ， 因 为 经 过 优化 的 基本 块 不 会 计算 b 的 值 。 


如 果 b 和 d 都 在 出 口 处 活跃 ， 或 者 我 们 不 能 够 确定 它们 是 否 在 出 口 处 
人 
这 个 付 算 ; 





b 3: 雹 
a—-4d 
d 

d+c 


这 个 基本 块 仍然 比 原 来 的 基本 块 高 效 。 虽 然 指令 数目 相同 ， 但 我 们 
己 经 把 一 个 减法 蔡 换 为 一 个 复制 运算 。 在 大 多 数 机 器 上 ， 复 制 运算 要 比 
减法 更 加 高 效 。 不 仅 如 此 ， 我 们 还 有 可 能 通过 全 局 分 析 把 此 基本 块 外 对 
b 的 使 用 全 部 蔡 换 为 对 d 的 使 用 ， 从 而 消除 在 基本 块 外 对 b 的 使 用 。 在 这 
种 情况 下 ， 我 们 就 可 以 再 次 回 到 这 个 基本 块 并 消除 b=d。 直 观 地 讲 ， 如 
果 在 任何 使 用 b 的 这 个 值 的 时 刻 ，d 中 的 值 仍然 和 b 一 样 ， 那 么 我 们 束 可 
全 


当 从 DAG 重 构 基 本 块 时 ， 我 们 不 仅 要 关心 用 哪些 变量 来 存放 DAG 
中 的 结 点 的 值 ， 还 要 关心 计算 不 同 结 点 值 的 指令 的 顺序 。 应 记 住 如 下 规 
则 : 


1) 指令 的 顺序 必须 遵守 DAG 中 的 结 点 的 顺序 。 也 就 是 说 ， 只 有 在 
计算 出 一 个 结 反 的 各 个 子 结 皮 的 值 之 后 ， 才 可 以 计算 这 个 结 点 的 值 。 


nA TO 
中 4 

















2) 对 数组 的 赋值 必须 跟 在 所 有 《按照 原 基本 块 中 的 指令 顺序 ) 在 
它 之 前 的 对 同一 数组 的 赋值 或 求 值 运算 之 后 。 


3) 对 数组 元 素 的 求 值 必须 跟 在 所 有 在原 基本 块 中 ) 在 它 之 前 的 
对 同一 数组 的 赋值 指令 之 后 。 对 同一 数组 的 两 个 求 值 运算 可 以 交换 顺 
序 ， 只 要 在 交换 时 它们 都 没有 越过 某 个 对 同一 数组 的 赋值 运算 即 可 。 


4) 一 个 变量 的 使 用 必须 跟 在 所 有 《在原 基本 块 中 ) 在 它 之 前 的 过 
程 调用 和 指针 间接 赋值 运算 之 后 。 

5) 任何 过 程 调用 或 者 指针 间接 赋值 都 必须 跟 在 所 有 《在原 基本 块 
中 ) 在 它 之 前 的 对 任何 变量 的 求 值 运算 之 后 。 

也 就 是 说 ， 当 重组 代码 的 时 候 ， 没 有 一 个 语句 可 以 路 越过 程 调用 或 
指针 间接 赋值 运算 。 只 有 在 两 个 使 用 同一 个 数组 的 指令 都 是 数组 访问 而 
不 是 对 数组 元 素 赋值 时 ， 它 们 才 可 以 交换 顺序 。 












































8.5.8 8.5 节 的 练习 


练习 8.5.1: 为 下 面 的 基本 块 构造 DAG。 


d=b*c 
e=a+b 
b=b*c ce 
a=e-d 


练习 8.5.2: 分 别 按照 下 列 两 种 假设 简化 练习 8.5.1 的 三 地 址 代码 。 
1) 只 有 a 在 基本 块 的 出 口 处 活跃 。 

2) a、b、c 在 基本 块 的 出 口 处 活跃 。 

练习 8.5.3: 为 图 8-9 中 的 块 Be 的 代码 构造 DAG。 请 不 要 起 记 包 含 比 


较 指 令 i<10。 


练习 8.5.4: 为 图 8-9 中 的 块 B3 的 代码 构造 DAG。 


练习 8.5.5: 扩展 算法 8.7， 使 之 可 以 处 理 如 下 的 三 地 址 语句 (原文 
为 three-statements 一 一 译 者 注 ) 
1) a[i = Pb 
2)a = b[i] 
3) a = *b 
4) *a 二 b 





练习 8.5.6: 分 别 按照 下 面 的 两 个 假设 ， 为 基本 块 


构造 DAG 图 。 假 设 如 下 : 
1) p 可 以 指向 任何 地 方 。 
2) p 只 能 指 癌 b 或 d。 


! 练习 8.5.7: 如 果 一 个 指针 或 数组 表达 式 〈 比 如 a [i] 或 者 "p) 被 
赋值 之 后 又 被 使 用 ， 且 赋值 和 使 用 之 间 没 有 做 任何 修改 ， 我 们 就 可 以 利 
用 这 种 情况 来 简化 DAG。 比 如 ， 在 练习 8.5.6 的 代码 中 ， 因 为 p 可 能 指向 
的 所 有 位 置 在 第 二 个 和 第 四 个 语句 之 间 没 有 被 赋值 ， 所 以 不 管 p 指 向 哪 
里 ， 语 句 e=*p 都 可 以 被 替换 为 e=<c。 请 修正 DAG 构 造 算法 以 利用 这 种 情 
况 带 来 的 好 处 ， 并 把 你 的 算法 应 用 到 练习 8.5.6 的 代码 中 。 


练习 8.5.8: 假设 一 个 基本 块 由 下 面 的 C 语 言 赋值 语句 生成 : 








英 站 涉世 有 有 水 和 重生 末 工 
三 有 


1) 给 出 这 个 基本 块 的 三 地 址 语句 《每 个 语句 只 做 一 次 加 法 ) 。 


2) 假设 x 和 y 都 在 基本 块 的 出 口 处 活跃 ， 利 用 加 法 的 结合 律 和 交换 
律 来 修改 这 个 基本 块 ， 使 得 指令 个 数 最 少 。 


8.6 一 个 简单 的 代码 生成 器 


在 本 市 中 ， 我 们 将 考虑 一 个 为 单个 基本 块 生成 代码 的 算法 。 它 依次 
考虑 各 个 三 地 址 指令 ， 并 跟踪 记录 哪个 值 存放 在 哪个 寄存 器 中 。 这 样 可 
以 避免 生成 不 必要 的 加 载 和 保存 指令 。 


在 代码 生成 中 的 主要 问题 之 一 是 决定 如 何 最 大 限度 地 利用 寄存 器 。 
寄存 器 有 如 下 四 种 主要 使 用 方法 : 


。 在 大 部 分 机 器 的 体系 结构 中 ， 执 行 一 个 运算 时 该 运算 的 部 分 或 全 部 
运算 分 量 必须 存放 在 寄存 器 中 。 

寄存 器 很 适合 做 临时 变量 ， 即 在 计算 一 个 大 表达 式 时 存放 其 子 表 达 
式 的 值 。 或 者 更 一 般 地 讲 ， 寄 存 絮 适合 用 于 存放 只 在 单个 基本 块 内 
使 用 的 变量 的 值 。 

寄存 器 用 来 存放 在 一 个 基本 块 中 计算 而 在 男 一 个 基本 块 中 使 用 的 
(全 局 ) 值 。 比 如 ， 循 环 下 标的 值 ， 每 次 循环 都 对 该 值 作 增 量 运 
算 ， 并 在 循环 体 中 多 次 被 使 用 。 

寄存 器 经 常用 来 帮助 进行 运行 时 刻 的 存储 管理 。 比 如 ， 管 理 运行 时 
刻 栈 包括 栈 指针 的 维护 ， 栈 顶 元 素 也 可 能 被 存放 在 寄存 器 中 。 


因为 可 用 寄存 器 的 数量 是 有 限 的 ， 这 些 需 求 之 间 有 相互 苋 争 的 天 


本 节 的 算法 假设 有 一 组 寄存 器 可 以 用 来 存放 在 基本 块 内 使 用 的 值 。 
通常 情况 下 ， 这 个 寄存 器 集合 不 包括 机 喜 的 所 有 寄存 器 ， 因 为 有 些 寄 存 
名 专 门 用 于 存放 全 局 变量 或 者 用 于 对 栈 进 行 省 理 。 我 们 假设 基本 块 已 经 
通过 诸如 公共 子 表达 式 合并 这 样 的 转换 而 变 成 了 我 们 希望 的 三 地 址 指令 
序列 。 我 们 进一步 假设 对 每 个 运算 符 有 且 只 有 一 个 对 应 的 机 器 指令 。 这 
个 指令 对 存放 在 寄存 右 中 的 所 需 的 运算 分 量 进行 运 复 ， 并 把 结果 存放 在 
一 个 寄存 器 中 。 机 器 指令 的 形式 如 下 : 



































e。 LDreg, mem 
e。 STmem, reg 
e OPreg, reg, reg 


8.6.1 寄存 袁 和 地 址 摘 述 符 


我 们 的 代码 生成 算法 依次 考虑 了 各 个 三 地 址 指令 ， 并 决定 需要 哪些 
加 载 指令 来 把 必需 的 运算 分 量 加 载 进 寄存 右 。 在 生成 加 载 指 令 之 后 ， 它 
开始 生成 运算 代码 。 然 后 ， 如 果 有 必要 把 结果 存放 入 一 个 内 存 位 置 ， 它 
还 会 生成 相应 的 保存 指令 。 


为 了 做 出 这 些 必要 的 决定 ， 我 们 需要 一 个 数据 结构 来 说 明 哪 些 程 序 
变量 的 值 当前 被 存放 在 哪个 或 哪些 寄存 占 里 面 。 我 们 还 需要 知道 当前 存 
放 在 一 个 给 定 变量 的 内 存 位 置 上 的 值 是 否 就 是 这 个 变量 的 正确 值 。 因 为 
变量 的 新 值 可 能 已 经 在 寄存 器 中 计算 出 来 但 还 没有 存放 到 内 存 中 。 这 个 
数据 结构 具有 下 列 描述 符 : 


1) 每 个 可 用 的 寄存 器 都 有 一 个 寄存 器 描述 符 (register 
descriptor) 。 它 用 来 跟踪 有 哪些 变量 的 当前 值 存放 在 此 寄存 器 内 。 因 为 
我 们 仅仅 考虑 那些 用 于 存放 一 个 基本 块 内 的 局 部 值 的 寄存 器 ， 我 们 可 以 
假设 在 开始 时 所 有 的 寄存 器 描述 符 都 是 空 的 。 随 痢 代 码 生 成 过 程 的 进 
行 ， 每 个 寄存 器 将 存放 零 个 或 多 个 变量 名 字 的 值 。 


2) 每 一 个 程序 变量 都 有 一 个 地 址 描述 符 (address descriptor) 。 它 
用 来 跟踪 记录 在 哪个 或 哪些 位 置 上 可 以 找到 该 变量 的 当前 值 。 这 个 位 置 
可 以 是 一 个 寄存 器 、 一 个 内 存 地 址 、 一 个 栈 中 的 位 置 ， 也 可 以 是 由 这 些 
We 
条 目 中 。 



































8.6.2 ”代码 生成 算法 


这 个 算法 的 一 个 重要 部 分 是 函数 getReg 〈I) 。 这 个 函数 为 每 个 与 三 
地 址 指令 I 有 关 的 内 存 位 置 选择 寄存 器 。 函 数 getReg 可 以 访问 这 个 基本 了 
的 所 有 变量 对 应 的 寄存 器 和 地 址 描述 符 。 这 个 函数 还 可 能 需要 获取 一 些 
有 用 的 数据 流 信息 ， 比 如 哪些 变量 在 基本 块 出 口 处 活跃 。 我 们 将 首先 给 
出 基本 算法 ， 然 后 再 讨论 getReg 函 数 。 我 们 不 知道 总 共有 多 少 个 寄存 器 
可 用 于 存放 基本 块 的 局 部 数据 ， 因 此 假设 有 足够 的 寄存 器 使 得 在 把 值 存 
放 回 内 存 ， 释 放 了 所 有 的 可 用 寄存 器 之 后 ， 空 闲 的 寄存 器 足以 完成 任何 

















三 地 址 运算 。 

在 一 个 形 如 x=y+z 的 三 地 址 指令 中 ， 我 们 将 把 + 当 作 一 般 的 运算 符 ， 
而 ADD 当 作 等 价 的 机 器 指令 。 因 此 ， 我 们 没有 利用 + 的 交换 性 。 这 样 ， 当 
我 们 实现 这 个 运算 时 ，y 的 值 必 须 在 App 指 令 中 给 出 的 第 二 个 寄存 器 中 ， 
而 绝 不 会 是 第 三 个 寄存 器 。 可 以 按照 下 面 的 方法 来 改进 算法 : 只 要 + 是 
一 个 满足 交换 律 的 运算 符 ， 算 法 同时 为 x=y+z 和 x=z+y 生 成 代码 ; 随后 再 
选择 一 个 比较 好 的 代码 序列 。 

运算 的 机 器 指令 

对 每 个 形 如 x=y+z 的 三 地 址 指令 ， 完 成 下 列 步 又 : 


1) 使 用 getReg (x=y+z) 来 为 x<、y、z 选 择 寄存 器 。 我 们 把 这 些 寄 
存 器 称 为 Rk、Ry 和 R,。 


2) 如 果 《〈 根 据 Rv 的 寄存 器 描述 符 ) y 不 在 Rv 中 ， 那 么 生成 一 个 指 
令 “LDRy，y”， 其 中 yY 是 存放 y 的 内 存 位 置 之 一 〈Y 可 以 根据 y 的 地 址 描 
述 符 得 到 ) 。 

3) 类 似 地 ， 如 果 z 不 在 R, 内 ， 生 成 一 个 指令 “Lp Re，z”， 其 中 z 是 
存放 z 的 位 置 之 一 。 

4) 生成 指令 “App R,，R,，R2”。 

复制 语句 的 机 器 指令 

形 如 x=y 的 三 地 址 指令 是 一 个 重要 的 特例 。 我 们 假设 getReg 总 是 为 x 
和 y 选 择 同 一 个 寄存 器 。 如 果 y 没 有 在 寄存 器 Ry 中 ， 那 么 生成 机 器 指令 ID 
Ry，y。 如 果 y 已 经 在 Ry 中 ， 我 们 不 需要 做 任何 事情 。 我 们 只 需要 修改 R、 
的 寄存 器 描述 符 ， 表 明 Rv 中 也 存放 了 x 的 值 。 








基本 块 的 收尾 处 理 


我 们 描述 算法 时 表明 ， 在 代码 结束 的 时 候 ， 基 本 块 中 使 用 的 变量 可 
能 仪 存 放 在 茶 个 寄存 器 中 。 如 果 这 个 变量 是 一 个 只 在 基本 块 内 部 使 用 的 
临时 变量 ， 那 就 没有 问题 ， 当 基本 块 结束 时 ， 我 们 可 以 不 记 这 些 临 时 变 








量 的 值 并 假设 这 些 寄存 器 是 空 的。 但 如 果 一 个 变量 在 基本 块 的 出 口 处 活 
跃 ， 或 者 我 们 不 知道 哪些 变量 在 出 口 处 活跃 ， 那 么 就 必须 假设 这 个 变量 
的 值 会 在 以 后 被 用 到 。 在 那 种 情况 下 ， 对 于 每 个 变量 x， 如 果 它 的 地 址 
描述 符 表明 它 的 值 没 有 存放 在 x 的 内 存 位 置 上 ， 我 们 必须 生成 指令 sT 
x，R， 其 中 R 是 在 基本 块 的 结尾 处 存放 x 值 的 寄存 器 。 

管理 寄存 器 和 地 址 描述 符 


当代 码 生 成 算法 生成 加 载 、 保 存 和 其 他 机 器 指令 时 ， 它 必须 同时 更 
新 寄存 器 和 地 址 描述 符 。 修 改 的 规则 如 下 : 


1) 对 于 指令 “LD R，x”: 
Q 修改 寄存 器 R 的 寄存 器 描述 符 ， 使 之 只 包含 x。 
@ 修改 x 的 地 址 描述 符 ， 把 寄存 器 R 作 为 新 增 位 置 加 入 到 x 的 位 置 集 








口 





@ 从 任何 不 同 于 x 的 变量 的 地 址 描述 符 中 删除 R。 原文 缺 一 条 
一 一 详 痢 注 。) 


1 2) 对 于 指令 STX，R， 修 改 x 的 地 址 描述 符 ， 使 之 包含 自己 的 内 存 
硬是 


3) 对 于 实现 三 地 址 指令 x=y+z 的 “ADD Rx，Ry，Rz” 这 样 的 运算 而 

QD 改变 Ry 的 寄存 器 描述 符 ， 使 之 只 包含 Xx。 

@ 改变 x 的 地 址 描述 符 使 得 它 只 包含 位 置 R,.。 注 意 ， 现 在 x 的 地 址 
描述 符 中 不 包含 x 的 内 存 位 置 。 

@) 从 任何 不 同 于 x 的 变量 的 地 址 描述 符 中 删除 R、。 

4) 当 我 们 处 理 复制 语句 x=y 时 ， 如 由 有 必要 生成 把 y 加 载 入 R, 的 加 


载 指 令 ， 那 么 在 生成 加 载 指令 并 按照 规则 1) 像 处 理 所 有 的 加 载 指 令 
那样 处 理 完 各 个 描述 符 之 后 ， 再 进行 下 面 的 处 理 : 








@ 把 x 加 入 到 R, 的 寄存 器 描述 符 中 。 
@ 修改 x 的 地 址 描述 符 ， 使 得 它 只 包含 唯一 的 位 置 R,。 
让 我 们 把 由 下 列 三 地 址 语句 组 成 的 基本 块 翻译 成 代码 。 





t=a-b 
uUu=a-c 
VV 三 七 二 岂 
a=d 

d= Vv+u 








这 里 ， 我 们 假设 t、u、v 都 是 基本 块 的 局 部 临时 变量 ， 而 变量 a、b、c、( 
在 基本 块 出 口 处 活跃 。 因 为 我 们 还 没有 讨论 函数 getReg 是 如 何 工 作 的 ， 
所 以 将 简单 地 假设 当 需 要 时 总 有 足够 的 寄存 器 可 用 。 但 是 当 一 个 寄存 器 
中 存放 的 值 不 再 有 用 时 比如 ， 它 只 存放 了 一 个 临时 变量 的 值 ， 且 对 这 
个 临时 变量 的 所 有 使 用 都 已 经 处 理 完 了 ) ， 我 们 就 复 用 这 个 寄存 器 。 


图 8-16 显 示 了 算法 生成 的 所 有 机 器 代码 指令 。 该 图 还 显示 了 在 翻译 
每 个 三 地 址 指令 之 前 和 之 后 的 寄存 器 和 地 址 描述 符 的 情况 。 























t=a-b 
LD R1, a 
LD R2, b 
SUB R2, R1, 
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证 - 专 节 守 克 
LD R3, c 
SUB R1, R1, 





| a | b ic 





Vv=t+u 
ADD R3, R2, 
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a=d 
LD RZ2; -aa 











R2 | b 





d=v+u 
ADD R1，R3， 





























Ro | 








exit 
ST :as 了 2 
ST d, R1 




















aR2| b | 











图 8-16 生成 的 指令 以 及 寄存 器 和 地 址 描述 符 的 改变 过 程 


因为 最 初 寄存 器 中 不 保存 任何 值 ， 我 们 需要 为 第 一 个 三 地 址 指令 
t=a-b 生 成 三 个 指令 。 因 此 ， 我 们 看 到 a 和 b 被 加 载 到 寄存 器 RI 和 R2 中 ， 
而 t 的 值 生成 后 存放 于 寄存 器 R2 中 。 注 意 ， 我 们 可 以 使 用 R2 来 存放 t 是 因 
为 原先 存放 于 R2 中 的 b 的 值 在 该 基本 块 内 不 再 被 使 用 。 因 为 预 设 了 pb 在 基 
本 块 的 出 口 处 活跃 ， 假 如 (b 的 地 址 描述 符 表 明 〉b 不 在 它 自己 的 内 存 位 
置 上 ， 那 么 我 们 将 不 得 不 先 把 R2 中 的 值 保存 到 b。 假 如 我 们 需要 R2， 那 
么 生成 指令 STb R2 的 决定 将 由 getReg 做 出 。 


第 二 个 指令 u=a-c 不 需要 加 载 a 的 指令 ， 因 为 a 已 经 存放 在 寄存 器 R1 
中 。 原 来 存放 在 寄存 器 RE 中 的 a 的 值 在 该 基本 块 中 不 再 被 用 到 ， 而 且 如 
果 在 基本 块 之 外 需要 使 用 a 的 值 ， 可 以 从 a 的 内 存 位 置 上 获取 因为 a 的 
值 也 在 它 自 己 的 内 存 位 置 上 〉。 因 此 ， 我 们 还 可 以 复 用 Ri 来 存放 结果 
u。 请 注意 ， 我 们 改变 了 a 的 地 址 描述 符 ， 以 表明 它 已 经 不 在 Ri 中 ， 但 是 
还 在 称 为 a 的 内 存 位 置 中 。 


第 三 个 指令 v=t+u 只 需要 一 个 加 法 指令 。 而 且 ， 我 们 可 以 用 Rs 来 存 
放 结 果 v， 因 为 原先 存放 在 该 寄存 器 中 的 c 的 值 在 该 基本 块 内 不 再 使 用 ， 














且 c 在 自己 的 内 存 位 置 上 也 存放 了 这 个 值 。 


复制 指令 a=d 需 要 一 个 指令 来 加 载 d， 因 为 d 不 在 寄存 器 中 。 图 中 显 
示 寄 存 器 R2 的 描述 符 包 舍 了 a 和 pb。 把 a 加 入 到 寄存 器 描述 符 是 我 们 处 理 
这 个 复制 语句 的 结果 ， 而 不 是 任何 机 器 指令 的 结果 。 


第 五 个 指令 d=v+tu 使 用 两 个 存放 在 寄存 器 中 的 值 。 因 为 u 是 一 个 临时 
变量 且 它 的 值 不 再 被 使 用 ， 所 以 我 们 选择 复 用 它 的 寄存 器 R1 来 存放 d 的 
新 值 。 请 注意 ，d 现 在 只 存放 在 R1 中 ， 不 在 它 自 己 的 内 存 位 置 上 。 对 于 a 
也 是 同样 的 情况 ，a 的 值 只 存放 在 R2 中 ， 而 不 在 被 称 为 a 的 内 存 位 置 上 。 
因为 这 个 原因 ， 我 们 需要 为 基本 块 的 机 器 代码 增加 一 个 “尾声 ”: 它 把 在 
出 口 处 活跃 的 变量 a 和 d 的 值 保 存 回 它们 的 内 存 位置 。 这 惑 是 图 中 的 最 后 
两 个 指令 的 工作 。 

















8.6.3 ”函数 getReg 的 设计 


最 后 ， 让 我 们 考虑 如 何 针对 一 个 三 地 址 指令 1 实现 函数 
getReg (TD) 。 实 现 这 个 函数 可 以 选择 很 多 种 方法 ， 当 然 也 存在 一 些 绝对 
不 可 以 选择 的 方法 。 这 些 错误 方法 会 因 丢 失 一 个 或 多 个 活跃 变量 的 值 而 
导致 生成 错误 代码 。 我 们 用 处 理 一 个 运算 指令 的 步骤 来 开始 我 们 的 讨 
论 ， 还 是 用 x=y+z 作 为 一 般 性 的 例子 。 首 先 ， 我 们 必须 为 y 和 z 分 别 选择 
一 个 寄存 器 。 这 两 次 选择 所 面临 的 问题 是 相同 的 ， 因 此 我 们 将 集中 考虑 
为 y 选 择 寄存 器 R, 的 方法 。 选 择 规则 如 下 ; 


1) 如 果 y 当 前 就 在 一 个 寄存 器 中 ， 则 选择 一 个 已 经 包含 了 y 的 寄存 
器 作为 Ry。 不 需要 生成 一 个 机 器 指令 来 把 y 加 载 到 这 个 寄存 器 。 


2) 如 果 y 不 在 寄存 器 中 ， 但 是 当前 存在 一 个 空 寄存 器 ， 那 么 选择 这 
个 空 寄存 器 作为 Ry 


3) 比较 困难 的 情况 是 y 不 在 寄存 器 中 且 当 前 也 没有 空 寄存 器 。 无 论 
如 何 ， 我 们 需要 选择 一 个 可 行 的 寄存 器 ， 并 且 必 须 保 证 复 用 这 个 寄存 器 
是 安全 的 。 设 R 是 一 个 候选 寄存 器 ， 且 假设 v 是 R 的 寄存 器 描述 符 表 明 的 
己 位 于 R 中 的 变量 。 我 们 需要 保证 要 么 v 的 值 已 经 不 会 被 再 次 使 用 ， 要 么 
我 们 还 可 以 到 别 的 地 方 获取 v 的 值 。 可 能 的 情况 包括 : 














nn 我 们 就 完成 
了 任务 。 





@@ 如 果 v 是 x， 即 由 指令 I 计算 的 变量 ， 且 x 不 同时 是 指令 I 的 运算 分 
量 之 一 《比如 这 个 例子 中 的 z) ， 那 么 我 们 就 完成 了 任务 。 其 原因 是 在 
这 种 情况 下 ， 我 们 知道 x 的 当前 值 决 不 会 再 次 被 使 用 ， 因 此 我 们 可 以 名 


略 它 。 


侍 则 ， 如 果 v 不 会 在 此 之 后 被 使 用 ( 即 在 指令 I 之 后 不 会 再 次 使 用 
Vv， 且 如 果 v 在 基本 块 的 出 口 处 活跃 ， 那 么 v 的 值 必然 在 基本 块 中 被 重新 
计算 ) ， 那 么 我 们 就 完成 了 任务 。 
由 如果 前 面 的 三 个 条 件 都 不 满足 ， 我 们 就 需要 生成 保存 指令 ST V， 
R 来 把 v 的 值 复 制 到 它 自 己 的 内 存 位 置 上 去 。 这 个 操作 称 为 溢出 操作 
(CSspill) 。 


因为 在 那个 时 刻 R 可 能 存放 了 多 个 变量 的 值 ， 所 以 我 们 需要 对 每 个 
这 样 的 变量 v 重 复 上 述 步 骤 。 最 后 ，R 的 “得 分 是 我 们 需要 生成 的 保存 指 
令 的 个 数 。 选 择 一 个 具有 最 低 得 分 的 寄存 器 (或 之 一 ) 。 


现在 考虑 寄存 器 Rx 的 选择 。 其 中 的 难点 和 可 选项 几乎 和 选择 Rv 时 的 
一 样 ， 因 此 我 们 只 给 出 其 中 的 区 别 。 


1) 因为 x 的 一 个 新 值 正在 被 计 算 ， 因 此 只 存放 了 x 的 值 的 寄存 此 对 
R、 来 说 总 是 可 接受 。 即 使 x 就 是 y 或 z 之 一 ， 这 个 语句 仍然 成 立 ， 因 为 我 
们 的 机 器 指令 允许 一 个 指令 中 的 两 个 寄存 器 相同 。 

2) 如 果 【( 像 上 面 对 变 量 v 的 描述 那样 )y 在 指令 I 之 后 不 再 使 用 ， 且 


(在 必要 时 加 载 y 之 后 ) Ry 仅仅 保存 了 y 的 值 ， 那 么 Ry 同时 也 可 以 用 作 
R、。 对 z 和 R; 也 有 类 似 选 择 。 


需要 特别 考虑 的 最 后 一 个 问题 是 当 I 是 复制 指令 x=y 时 的 情况 。 我 们 
用 上 面 描述 的 方法 选择 R,， 然 后 是 让 Rx=Rv。 














8.6.4 8.6 节 的 练习 





练习 8.6.1: 为 下 面 的 每 个 C 语 言 赋值 语句 生成 三 地 址 代码 


1)x=a+bkyci 

2)x=a/(b+c) - dr(e+f); 

3)x = ali] + 1; 

4)a[li] = br[c[i]]; 

$5) alijtj] = b[Li][k] + c[kj [ij]; 

6) *p++ 三 x*q++; 
假设 其 中 的 所 有 数组 元 素 都 是 整数 ， 每 个 元 素 占 四 个 字 市 。 在 4 和 5 部 
分 ， 假 设 a、b、c 是 常数 。 和 在 本 章 之 前 有 关 数 组 访问 的 例子 中 一 样 ， 它 
们 给 出 了 同名 数组 的 第 0 个 元 素 的 位 置 。 

! 练习 8.6.2: 假设 数组 a、b、c 分 别 通过 指针 pa、pb 和 pc 定位 。 这 些 

指针 指 回 各 自 数 组 的 首 元 素 〈 第 0 个 元 素 ) 。 重 复 练习 8.6.1 的 4 和 5 部 
2 


志 








练习 8.6.3: 把 在 练习 8.6.1 中 得 到 的 三 地 址 代码 转换 为 本 市 给 出 的 机 
需 模 型 的 机 器 代码 。 假 设 你 有 任意 多 个 寄存 器 可 用 。 

练习 8.6.4: 假设 有 三 个 可 用 的 寄存 器 ， 使 用 本 节 中 的 简单 代码 生成 
算法 ， 把 在 练习 8.6.1 中 得 到 的 三 地 址 代码 转换 为 机 器 代码 。 请 给 出 每 一 
个 步骤 之 后 的 寄存 器 和 地 址 描述 符 。 


练习 8.6.5: 重复 练习 8.6.4， 但 是 假设 只 有 两 个 可 用 的 寄存 器 。 








8.7” 颖 扎 优 化 


虽然 大 部 分 编译 器 产品 通过 仔细 的 指令 选择 和 寄存 器 分 配 来 生成 优 
质 代 码 ， 但 还 有 一 些 编 译 器 使 用 另 一 种 策略 : 它们 先生 成 原始 的 代码 ， 
然后 对 目标 代码 进行 “优化 ?转换 ， 提 高 目标 代码 的 质量 。 这 里 使 用 术 
语 “ 优 化 ?具有 一 定 的 误导 性 ， 因 为 不 能 保证 得 到 的 代码 在 任何 数学 度量 
之 下 都 是 最 优 的 。 不 管 怎 么 说 ， 很 多 简单 的 转换 可 以 有 效 地 改善 目标 程 
序 的 运行 时 间 和 空间 需求 。 


一 个 简单 却 有 效 的 、 用 于 局 部 改进 目标 代码 的 技术 是 寅 有 孔 优化 
(peephole optimization〉。 它 在 优化 的 时 候 检 查 目 标 指令 的 一 个 滑动 密 
口 ( 即 窥 孔 ) ， 并 且 只 要 有 可 能 就 在 颖 孔 内 用 更 快 或 更 短 的 指令 来 着 换 
窗口 中 的 指令 序列 。 也 可 以 在 中 间 代 码 生 成 之 后 直接 应 用 颖 孔 优 化 来 提 
高 中 间 表 示 形 式 的 质量 。 


蜂 孔 是 程序 上 的 一 个 小 的 滑动 窗口 。 频 孔 优 化 技术 并 不 要 求 在 蜂 孔 
中 的 代码 一 定 是 连续 的 ， 尺 管 有 些 实现 要 求 代码 连续 。 突 也 优化 的 特点 
是 每 一 次 改进 又 可 能 产生 出 新 的 优化 机 会 。 一 般 来 说 ， 为 了 获得 最 大 的 
好 处 就 需要 多 次 扫 摘 目标 代码 。 在 本 节 中 ， 我 们 将 给 出 下 列 上 共有 驱 孔 优 
化 特点 的 程序 变换 的 例子 。 


。 元 余 指 令 消除 

。 控制 流 优化 

。 代数 化 简 

。 机 需 特 有 指令 的 使 用 



































8.7.1 消除 元 余 的 加 载 和 保存 指令 


如 果 我 们 在 目标 程序 中 看 到 指令 序列 


LD RO, a 
ST a, RO 





我 们 就 可 以 删除 其 中 的 保存 指令 ， 因 为 不 管 这 个 保存 指令 何 时 执行 ， 第 
一 个 指令 将 保证 a 的 值 已 经 被 加 载 到 寄存 器 Re 中 。 请 注意 ， 假 如 保存 指 
令 有 一 个 标号 ， 我 们 就 不 能 保证 第 一 个 指令 总 是 在 第 二 个 指令 之 前 执 
行 ， 因 此 不 能 删除 这 个 保存 指令 。 换 句 话 说， 为 了 保证 这 样 的 转换 是 安 
全 的 ， 这 两 个 指令 必须 在 同一 个 基本 块 内 。 


这 种 类 型 的 见 余 加 载 /保存 指令 不 会 由 前 一 市 中 的 简单 代码 生成 算 
法 生成 。 但 是 ， 一 个 类 似 于 8.1.3 节 中 的 原始 的 代码 生成 器 可 能 生成 类 似 
的 元 余 代码 序列 。 


8.7.2 ”消除 不 可 达 代 码 


另 一 个 宁 孔 优化 的 机 会 是 消除 不 可 达 的 指令 。 一 个 紧 跟 在 无 条 件 跳 
转 之 后 的 不 带 标 号 的 指令 可 以 被 删除 。 通 过 重复 这 个 运算 ， 就 可 以 删除 
一 个 指令 序列 。 比 如 ， 为 了 调试 的 目的 ， 一 个 大 型 程序 中 可 能 含有 一 些 
只 有 当 变 量 debug 等 于 1 时 才 运行 的 代码 片断 。 在 中 间 表 示 形 式 中 ， 这 个 
代码 看 起 来 可 能 吏 像 
if debug == 1 goto Li 
goto 上 2 
L1: print debugging information 
LZ2: 


一 个 显而易见 的 颖 孔 优 化 方法 是 消除 级 联 跳 转 指令 。 因 此 ， 不 管 
debug 的 值 是 什么 ， 上 面 的 代码 序列 可 以 被 殖 换 为 : 





if debug != 1 goto L2 
print debugging information 
L2: 


如 果 debug 在 程序 开始 的 时 候 被 设置 为 0， 御 量 传播 优化 将 把 这 个 序 
列 转换 为 


if 0 ss 1 goto L2 
print debugging information 
L2: 


现在 ， 第 一 个 语句 的 条 件 值 总 是 true， 因 此 这 个 语句 可 以 被 蔡 换 
为 goto L2。 答 换 之 后 ， 打 印 调试 信息 的 所 有 语句 都 变 成 了 不 可 达 语 
句 ， 因 此 可 以 被 逐一 消除 。 





8.7.3 控制 流 优化 


简单 的 中 间 代 码 生 成 算法 经 常生 成 目标 为 无 条 件 跳 转 指令 的 无 条 件 

跳 转 指令 ， 到 达 条 件 跳 转 指 令 的 无 条 件 跳 转 指令 ,或 者 到 达 无 条 件 跳 转 

旨 令 的 条 件 跳 转 指令 。 这 些 不 必要 的 跳 转 指令 可 以 通过 下 面 几 种 宁 孔 优 
化 技术 从 中 间 代 码 或 者 目标 代码 中 消除 。 我 们 可 以 把 序列 





goto 工 | 
Li 和 工 2 
丛 换 为 
goto L2 
ls ee L2 


如 果 没 有 跳 转 到 L1 的 指令 ， 并 且 语 句 L1: goto L2 之 前 是 一 个 无 条 
件 跳 转 指 令 ， 所 以 可 以 消除 这 个 语句 。 


类 似 地 ， 序 列 
if a< b goto L1 


Li: goto L2 


可 以 被 蔡 换 为 序列 
if a < b goto L2 
Li: goto L2 


最 后 ， 假 设 只 有 一 个 到 达 L1 的 跳 转 指令 ， 且 L1 之 前 是 一 个 无 条 件 跳 
转 指 令 ， 那 么 序列 


goto L1 


Li: if a < b goto L2 
L3: 


可 以 被 蔡 换 为 序列 
if & < b EOt0 L2 
goto L3 
L3: 
虽然 两 个 序列 中 的 指令 个 数 相同 ， 但 是 在 第 二 个 序列 中 我 们 有 了 时 可 


以 跳 过 无 条 件 跳 转 指 令 ， 而 在 第 一 个 序列 中 却 不 可 能 。 因 此 ， 第 二 个 订 
列 的 运行 时 间 要 优 于 第 一 个 序列 的 运行 时 间 。 














8.7.4 代数 化 简 和 强度 消减 
在 8.5 节 ， 我 们 讨论 了 可 以 用 于 简化 DAG 的 代数 恒等式 。 这 些 代数 
恒等式 也 可 以 被 帘 孔 优化 器 用 于 消除 帘 孔 中 类 似 于 
X=X+0 


或 者 


的 三 地 址 语句 。 


类 似 地 ， 强 度 消 减 转换 也 可 以 应 用 到 才 孔 中 ， 把 代价 比较 高 的 运算 
蔡 换 为 目标 机 器 上 代价 较 低 的 等 价 运 算 。 有 些 机 器 指令 和 另 一 些 指令 相 
比 其 代价 要 低 很 多 ， 它 们 经 常 被 当 作 相应 的 高 代价 运算 的 特殊 情况 来 使 
用 。 比 如 ， 用 x*x 实 现 x“ 的 代价 总 是 比 通过 调用 求 暴 函数 实现 x* 的 代价 
要 低 。 对 于 乘 数 〈 除 数 〉 为 2 的 贤 的 定点 数 乘法 除法) ， 用 移 位 运算 
实现 的 代价 要 低 一 些 。 除 数 为 第 数 的 浮 点 除法 可 以 通过 乘 数 为 该 第 量 倒 
数 的 乘法 来 求 近似 值 。 后 一 种 做 法 的 代价 要 小 一 点 。 














8.7.5 ”使 用 机 器 特有 的 指令 


目标 机 可 能 会 有 一 些 能 够 高 效 实现 某 些 特定 运算 的 人 硬件 指令 。 检 测 
允许 使 用 这 些 指令 的 情况 可 以 显著 地 降低 运行 时 间 。 比 如 ， 有 些 机 器 具 
有 自动 增 量 和 自动 减 量 的 寻 址 模式 。 这 些 指 令 在 使 用 一 个 运算 分 量 的 值 
之 前 或 之 后 ， 将 运算 分 量 的 值 目 动 加 一 或 减 一 。 在 参数 传递 时 的 压 栈 或 
出 栈 运算 中 使 用 这 个 模式 可 以 大 大 提高 代码 的 质量 。 这 个 模式 也 可 以 在 
类 似 于 x=x+1 的 语句 的 代码 中 使 用 。 

















8.7.6 8.7 节 的 练习 
练习 8.7.1: 构造 一 个 算法 ， 它 可 以 在 目标 机 器 代码 上 的 滑动 窥 孔 中 
进行 宛 余 指令 消除 。 


练习 8.7.2: 构造 一 个 算法 ， 它 可 以 在 目标 机 器 代码 上 的 滑动 完了 筷 中 
进行 控制 流 优化 。 


练习 8.7.3: 构造 一 个 算法 ， 它 可 以 在 目标 机 器 代码 上 的 滑动 宪 孔 中 
进行 简单 的 代数 简化 和 强度 消减 。 


8.8 ”寄存 器 分 配 和 指派 


只 涉及 寄存 器 运算 分 量 的 指令 要 比 那 些 涉及 内 存 运 算 分 量 的 指令 运 
行 得 快 。 在 现代 的 机 器 上 ， 处 理 圳 速度 要 比 内 存 速度 快 一 个 数量 级 以 
上 。 因 此 ， 寄 存 强 的 有 效 利用 对 生成 优质 代码 古 非 常 重要 的 。 本 市 将 给 
出 不 同 的 策略 ， 用 于 确定 在 程序 的 每 个 点 上 ， 哪 个 值 应 该 存放 在 寄存 器 
0 0 0 
派 ) 。 


寄存 器 分 配 和 指派 的 方法 之 一 是 把 目标 程序 中 的 特定 值 分 配给 特定 
的 寄存 器 。 比 如 ， 我 们 可 以 确定 把 基地 址 指派 给 一 组 寄存 器 ， 算 术 计 算 
则 使 用 另 一 组 寄存 器 ， 栈 项 指针 指派 给 一 个 固定 的 寄存 器 ， 等 等 。 


这 个 方法 的 优点 是 使 代码 生成 器 的 设计 变 得 简单 。 但 因为 它 的 应 用 
有 太 多 限制 ， 所 以 寄存 需 的 使 用 效率 较 低 : 有 些 被 占用 的 寄存 器 在 相当 
数量 的 代码 运行 中 没有 被 使 用 到 ， 同 时 却 不 得 不 生成 很 多 不 必要 的 其 他 
寄存 器 的 加 载 和 保存 运算 指令 。 虽 然 如 此 ， 在 大 多 数 计算 环境 中 还 是 要 
保留 一 些 寄存 器 。 这 些 被 保留 的 寄存 器 可 以 被 用 作 基 址 寄存 器 、 栈 项 指 
a 
I 时 候 使 用 。 





8.8.1 全 局 寄存 器 分 配 


8.6 市 中 的 代码 生成 算法 在 单个 基本 块 的 运行 期 间 使 用 寄存 器 来 存 
放 值 。 但 是 ， 在 每 个 基本 块 的 结尾 处 ， 所 有 活路 变量 的 值 都 被 保存 到 内 
存 中 。 为 了 和 省略 一 部 分 这 样 的 保存 及 相应 的 加 载 指令 ， 我 们 可 以 把 一 些 
寄存 器 指派 给 频 党 使 用 的 变量 ， 并 且 使 得 这 些 寄存 器 在 不 同 基本 块 中 的 
( 即 全 局 的 ) 指 铂 保持 一 致 。 因 为 程序 的 大 部 分 时 间 花 在 它 的 内 部 循环 
上 ， 所 以 一 个 上 自然 的 全 局 寄存 占 指 派 方 法 古 试图 在 整个 循环 中 把 频繁 使 
用 的 值 存放 在 固定 的 寄存 器 中 。 从 现在 开始 ， 假 设 我 们 知道 一 个 流 图 的 
人 循环 结构 ， 并 且 我 们 知道 在 一 个 基本 块 中 计算 的 哪些 值 会 在 该 基本 块 外 
使 用 。 下 一 个 章 将 介绍 用 于 计算 这 些 信息 的 技术 。 














全 局 寄存 器 分 配 的 策略 之 一 是 分 配 固定 多 个 寄存 器 来 存放 每 个 内 部 
循环 中 最 活跃 的 值 。 在 不 同 的 循环 中 所 选择 的 值 也 有 所 不 同 。 没 有 被 分 
配 的 寄存 器 可 以 如 8.6 节 中 说 的 那样 用 于 存放 一 个 基本 块 的 局 部 值 。 这 
个 方法 的 缺点 是 固定 的 寄存 器 个 数 并 不 总 是 恰好 等 于 用 于 全 局 寄存 器 分 
配 的 最 佳 数量 。 但 是 这 个 方法 实现 起 来 很 简单 ， 它 曾经 被 用 在 Fortran H 
中 。 这 是 IBM 在 20 世 纪 60 年 代 后 期 为 360 系 列 计算 机 开发 的 Fortran 优 化 
编译 器 。 


在 早期 的 C 纺 译 器 中 ， 程 序 员 可 以 明确 地 参与 某 些 寄 存 器 分 配 过 
程 。 他 们 使 用 寄存 器 声明 来 使 得 茶 些 值 在 一 个 过 程 运行 期 间 都 保存 在 寄 
存 需 中 。 明 智 地 使 用 寄存 需 声 明确 实 可 以 提高 很 多 程序 的 运行 速度 ， 但 
是 应 该 鼓励 程序 员 在 分 配 寄存 器 之 前 先 获 取 程 序 的 运行 时 刻 特 征 并 确定 
程序 运行 的 热点 代码 。 






































8.8.2 ”使 用 计数 





通过 在 循环 L 运 行 时 把 一 个 变量 x 保 存在 寄存 器 里 面 ， 我 们 可 以 节 和 涯 
从 内 存 中 加 载 x 的 开销 。 在 本 节 我 们 假设 ， 如 果 把 x 分 配 在 寄存 器 中 ， 对 
x 的 每 一 次 引用 可 以 市 省 一 个 单位 的 “用 于 加 载 的 ) 成 本 。 然 而 ， 如 果 x 
在 一 个 基本 块 中 被 计算 之 后 又 在 同一 个 基本 块 中 被 使 用 ， 那 么 当 使 用 
8.6 节 中 的 算法 来 生成 基本 块 代码 时 ，x 有 很 大 的 机 会 被 仍然 保存 在 寄存 
名 中 。〔 因 此 对 x 的 使 用 很 可 能 本 来 残 不 需要 从 内 存 中 加 载 。 一 一 译 者 
注 ) 因此 ， 只 有 当 x 在 循环 的 茶 个 基本 块 内 被 使 用 ， 且 在 同一 基本 块 中 
x 没有 被 先行 赋值 时 ， 我 们 才 认 为 这 次 使 用 市 约 了 一 个 单位 的 开销 。 如 
果 我 们 能 够 避免 在 汞 个 基本 块 的 结尾 把 x 保存 回 内 存 ， 我 们 也 可 以 和 省略 2 
个 单位 的 开销 : 保存 指令 和 之 后 的 加 载 指 令 。 因 此 ， 如 果 x 被 分 配 在 茶 
个 寄存 器 中 ， 对 于 每 个 辐 x 赋 值 且 x 在 其 出 口 处 活跃 的 基本 块 ， 我 们 节省 
了 两 个 单位 的 开销 。 


在 文 出 方面 ， 如 果 x 在 循环 头 部 的 入 口 处 活跃 ， 我 们 必须 在 进入 循 
环 L 之 前 把 x 加 载 到 它 的 寄存 器 中 。 这 个 加 载 的 成 本 是 两 个 成 本 单元 。 类 
似 地 ， 对 于 循环 L 的 每 个 出 口 基本 块 B， 如 果 x 在 B 的 某 个 LL 之 外 的 后 继 的 
入 口 处 活跃 ， 我 们 必须 以 2 个 单位 的 代价 把 x 保存 起 来 。 然 而 ， 假 设 循 环 
将 迭代 多 次 ， 我 们 可 以 忽略 这 些 文 出 。 因 为 每 次 进入 循环 时 ， 这 些 指令 
只 会 运行 一 次 。 因 此 ， 在 循环 L 中 把 一 个 寄存 器 分 配给 x 所 得 到 的 好 处 的 











一 个 估算 公式 是 


use(x,B) +2* live(x,B) (8.1) 


ZL 中 的 全 部 基本 块 B 


其 中 ，use (x，B) 是 x 在 B 中 被 定 值 之 前 被 使 用 的 次 数 。 如 果 x 在 B 的 出 
口 处 活跃 并 在 B 中 被 赋予 一 个 值 ， 则 live (x，B) 的 取 值 为 1， 人 否则 
live (x，B) 为 0。 请 注意 ， 式 8.1 只 是 一 个 估算 公式 。 这 是 因为 一 个 循 
环 中 的 各 基本 块 的 运行 频率 实际 是 不 同 的 ， 也 因为 式 〈8.1) 是 基于 循 
环 被 多 次 迭代 的 假设 之 上 的 。 因 此 在 特定 的 机 器 上 ， 有 可 能 需要 设计 一 
个 与 式 〈8.1) 类 似 ， 但 具有 一 定 差异 的 公式 。 


考虑 图 8-17 中 所 示 的 内 部 循环 中 的 基本 块 。 图 中 的 跳 转 指令 和 
条件 踊 转 指令 都 被 省 咯 了 。 假 设 寄存 器 Re、R1 和 R2 用 于 存放 整个 循环 范 
围 内 的 值 。 为 方便 起 见 ， 在 图 8-17 中 ， 各 个 基本 块 的 入 口 处 /出 口 处 的 活 
跃 变量 分 别 显示 在 基本 块 的 上 方 和 下 方 。 我 们 将 在 下 一 章 中 讨论 关于 活 
跃 变量 的 复杂 问题 。 比 如 ， 请 注意 s 和 f 都 在 Bi 的 结尾 处 活跃 ， 但 是 只 
有 e 在 Bs 的 入 口 处 活跃 ， 只 有 f 在 Bs 的 入 口 处 活跃 。 一 般 来 说 ， 在 一 个 基 
本 块 的 结尾 处 活跃 的 变量 集合 是 那些 在 该 基本 块 的 后 继 基本 块 的 入 口 处 
活跃 的 变量 的 并 集 。 


























和 
b, d, e, 了 ff 活跃 


b, c,d,e;f 活跃 


图 8-17 一 个 内 层 循环 的 流 图 


为 了 计算 当 x=a 时 式 〈8.1) 的 值 ， 我 们 观察 到 a 在 Bj 的 出 口 处 活跃 

且 在 B; 中 被 赋值 ， 但 是 它 不 在 B、B3、B4 的 出 口 处 活跃 。 因 此 ，yB 在 循 
环 L 中 usSe (a，B) =2。 当 x=a 时 ， 式 (8.1) 的 值 是 4。 也 就 是 说 ， 如 果 选 
择 某 个 全 局 寄存 器 来 存放 a 的 值 ， 可 以 节约 的 4 个 成 本 单位 。 对 b、c、d、 
e 和 f， 式 〈8.1) 的 值 分别 是 5、3、6、4 和 和 4。 因此， 我 们 可 以 为 Re、 

R1、R2 分 别 选择 a、b、d。 把 Re 用 于 存放 e 或 f 是 另 一 种 选择 ， 显 然 这 样 做 
有 具有 同样 的 收益 。 假 设 8.6 节 中 介绍 的 策略 用 于 生成 各 个 基本 块 的 代 

人 码 ， 图 8-18 显 示 了 根据 图 8-17 生 成 的 汇编 代码 。 在 图 8-17 中 ， 我 们 没有 
为 略 去 的 各 个 基本 块 结尾 处 的 条 件 或 无 条 件 跳 转 指令 生成 代码 ， 因 此 我 
们 没有 像 通 党 那样 把 代码 显示 成 为 一 个 序列 。 

































LD R3, f 
ADD R1, R2, R3 





SUB R3, RO, R2 






























: LD RS 二 Bs 
ST ES SUB R3, RO, R3 
ST e, R3 
LD R3,c ST b, RI 
ADD R1, R2, R3 ST d, R2 
ST b, Ri 
ST d, R2 





图 8-18 使 用 全 局 寄存 器 指派 的 代码 序列 


8.8.3 ”外 层 循 环 的 寄存 妖 指 派 


在 为 内 层 循环 指派 寄存 顺 并 生成 代码 之 后 ， 我 们 可 以 把 同样 的 想法 
应 用 到 更 大 的 外 围 循环 上 去 。 如 果 一 个 外 层 循环 Li 包含 一 个 内 层 循环 
L2， 在 Lz 中 分 配 的 寄存 器 的 名 字 不 一 定 要 在 Li1-L? 部 分 也 分 配 到 一 个 寄 
存 器 。 然 而 ， 如 果 我 们 诀 定 在 Lz 中 《而 不 是 在 Li 中 ) 为 x 分 配 一 个 寄存 
器 ， 我 们 必须 在 Lz 的 入 口 处 加 载 x， 而 在 Lz 的 出 口 处 保存 x。 我 们 把 在 外 
层 循环 L 中 选择 为 哪些 名 字 分 配 寄存 器 的 标准 留 作 练 习 ， 在 选择 时 假设 
已 经 为 所 有 嵌 套 在 L 内 部 的 循环 完成 了 名 字 选 择 。 








8.8.4 通过 图 着色 方法 进行 寄存 器 分 配 








当 计 算 中 需要 一 个 寄存 器 ， 但 所 有 可 用 寄存 器 都 在 使 用 时 ， 茶 个 正 
被 使 用 的 寄存 器 的 内 容 必须 被 保存 〈 溢 出 ) 到 一 个 内 存 位 置 上 ， 以 便 释 
放出 一 个 寄存 器 。 图 着 色 方 法 是 一 个 可 用 于 分 配 寄存 器 和 管理 寄存 器 洲 
出 的 简单 且 系 统 化 的 技术 。 


这 个 方法 需要 进行 两 趟 处 理 。 在 第 一 趟 处 理 中 选择 目标 机 器 指令 ， 
处 理 时 假设 有 无 穷 多 个 符号 化 寄存 器 。 经 过 这 次 处 理 ， 中 间 代 码 中 使 用 
的 名 字 变 成 了 寄存 器 的 名 字 ， 而 三 地 址 指令 变 成 了 机 器 指令 。 如 果 对 变 
量 的 访问 要 求 一 些 指令 使 用 栈 指 针 、 显 示 表 指针 、 基 址 寄存 器 或 其 他 的 
量 来 辅助 访问 ， 我 们 就 假设 这 些 量 存放 在 那些 为 相应 目的 而 保留 的 寄存 
器 中 。 通 常情 况 下 ， 它 们 的 使 用 可 以 直接 翻译 成 为 机 器 指令 中 的 一 个 地 
址 所 使 用 的 和 种 访问 模式 。 如 果 访 问 方 式 更 加 复杂 ， 这 个 访问 束 必 须 被 
分 解 成 为 多 个 机 器 指令 ， 并 且 需 要 创建 一 个 或 多 个 临时 的 符号 化 寄存 











已 局 


如 了 


在 选择 好 了 指令 之 后 ， 第 二 趟 处 理 把 物理 寄存 器 指派 给 符号 化 寄存 
器 。 这 一 次 处 理 的 目标 是 寻找 到 一 个 洪 出 代价 最 小 的 指派 方法 。 


在 第 二 趟 处 理 中 ， 对 每 个 过 程 都 构造 了 一 个 寄存 器 冲突 图 
(register-interference graph) 。 图 中 的 结 点 是 符号 化 寄存 器 。 对 于 任意 
两 个 结 点 ， 如 果 一 个 结 点 在 另 一 个 被 定 值 的 地 方 是 活跃 的 ， 那 么 这 两 个 
结 点 之 间 就 有 一 条 边 。 比 如 ， 图 8-17 对 应 的 寄存 器 冲突 图 中 有 两 个 结 点 
a 和 b。 在 基本 块 Bi 中 ，a 在 对 b 定 值 的 第 二 个 语句 上 是 活跃 的 ， 因 此 在 图 
中 结 点 a 和 b 之 间 有 一 条 边 。 








然后 就 可 以 尝试 用 k 种 颜色 对 寄存 器 冲突 图 进行 着 色 ， 其 中 k 是 可 指 
派 的 寄存 器 的 个 数 。 一 个 图 被 称 为 已 着 色 (colored) 当 且 仅 当 每 个 结 操 
都 被 赋予 了 一 个 颜色 ， 并 且 没 有 两 个 相 邻 的 结 点 的 颜色 相同 。 一 种 颜色 
代表 一 个 寄存 器 。 着 色 方 案 保证 不 会 把 同一 个 物理 寄存 咒 指 派 给 两 个 可 
能 相互 冲突 的 符号 化 寄存 器 。 


一 般 来 说 ， 确 定 一 个 图 是 否 k- 可 着 色 是 一 个 NP 完全 问题 ， 但 在 实践 
中 我 们 常常 可 以 使 用 下 面 的 启发 式 技术 进行 快速 着 色 。 假 设 图 G 中 有 一 
个 结 友 0"， 其 邻居 〈 即 通过 一 条 边 连 接 到 n 的 结 皮 ) 个 数 少 于 k 个 。 把 n 及 
和 n 相 连 的 边 从 G 中 删除 后 得 到 一 个 图 G'。 对 图 G' 的 一 个 k- 着 色 方案 可 以 
扩展 成 为 一 个 对 G 的 k- 着 色 方 案 ， 只 要 给 n 指 派 一 个 尚未 指派 给 它 的 邻居 
的 颜色 就 可 以 了 。 


通过 不 断 地 从 寄存 器 冲突 图 中 删除 边 数 少 于 k 的 结 点 ， 要 么 最 终 我 
们 得 到 一 个 空 图 ， 要 么 得 到 的 图 中 每 个 结 反 都 至 少 有 k 个 相 邻 的 结 反 。 
在 第 一 种 情况 下 ， 我 们 可 以 依照 结 点 被 删除 的 相反 顺序 对 结 反 进行 着 
色 ， 从 而 得 到 一 个 原 图 的 k- 着 色 方 案 。 在 第 二 种 情况 下 已 经 不 存在 k- 着 
色 方案 了 回 。 此 时 就 需要 通过 引入 保存 和 重新 加 载 寄 存 器 的 代码 ， 将 某 
个 结 点 洲 出 。Chaitin 设 计 了 多 个 用 来 选择 洲 出 结 反 的 启发 式 规则 。 总 的 
原则 是 避免 在 内 部 循环 中 引入 淤 出 代码 。 

















8.8.5”8.8 节 的 练习 


练习 8.8.1: 为 图 8-17 中 的 程序 构造 寄存 器 冲突 图 。 


练习 8.8.2: 假设 我 们 在 每 个 过 程 调 用 前 在 栈 中 自动 保存 所 有 的 寄存 
， 并 在 该 过 程 返 回 后 重新 从 栈 中 恢复 它们 ， 请 设计 一 个 寄存 器 分 配 策 





及 刘 


8.9 通过 树 重 写 来 选择 指令 


间 令 选择 可 能 是 一 个 大 型 的 排列 组 合 任务 。 对 于 像 CISC 这 样 的 具 
有 丰富 寻 址 模式 的 机 器 ， 或 者 具有 茶 些 特殊 目的 指令 《比如 信和 号 处 理 指 
令 ) 的 机 器 尤其 如 此 。 即 使 我 们 假设 求 值 的 顺序 已 经 给 定 ， 并 且 假 设 寄 
存 器 通过 另 一 个 独立 的 机 制 进 行 分 配 ， 指 令 选择 一 一 为 实现 中 间 表 示 形 
式 中 出 现 的 运算 符 而 选择 目标 语言 指令 的 问题 一 一 仍然 是 一 个 规模 很 大 
的 排列 组 合 任务 。 


在 本 节 中 ， 我 们 把 指令 选择 当 作 一 个 树 重 写 问题 来 处 理 。 目 标 指令 
的 树 形 表示 已 经 在 代码 生成 器 的 生成 器 中 得 到 有 效 使 用 。 这 种 生成 器 可 
以 依据 目标 机 需 的 高 层 规约 目 动 构造 出 一 个 代码 生成 句 的 指令 选择 阶 
段 。 对 于 茶 些 机 器 ， 相 对 于 使 用 树 表示 方法 而 言 ， 使 用 DAG 表 示 方 法 能 
够 生成 更 好 的 代码 。 但 是 DAG 匹 配 比 树 匹 配 更 加 复杂 。 

















8.9.1 树 翻 译 方 案 


在 这 一 市 中 ， 代 码 生成 过 程 的 输入 是 一 个 由 目标 机 絮 的 语义 层次 上 
的 树 组 成 的 夺 列 。 像 8.3 节 讨论 的 那样 在 中 间 代 码 中 插入 运行 时 刻 地 址 
之 后 束 可 以 得 到 这 些 树 。 男 外 ， 这 些 树 的 叶子 包含 有 关 它 们 的 标号 的 存 
储 类 型 的 信息 。 


咏 昼 乌 ”图 8-19 包 含 了 一 个 对 应 于 赋值 语句 a [i] =b+1 的 树 ， 其 中 数组 a 
子 夏 企 运行 时 刻 栈 中 ， 而 b 是 一 个 存放 在 内 存 位 置 Mo 的 全 局 变量 。 局 部 
变量 a 和 i 的 运行 时 刻 地 址 是 以 相对 于 sP 的 常数 仿 移 量 C; 和 Ci 的 方式 给 出 
的 ， 其 中 sP 是 存放 当前 活动 记录 的 起 始 位 置 的 寄存 器 。 


图 8-19 a [i] =b+i 的 中 间 代 码 树 


对 a [i] 的 赋值 是 一 个 间接 赋值 ， 其 中 a [i] 的 位 置 上 的 右 值 被 设置 
成 表达 式 b+1 的 右 值 。 数 组 a 和 变量 i 的 地 址 是 通过 分 别 把 常量 Cs 和 C; 的 
值 加 上 寄存 器 spP 的 内 容 而 得 到 的 。 为 了 简化 数组 地 址 的 计算 ， 我 们 假设 
每 个 元 素 值 都 是 一 个 字 节 的 字符 〈 茶 些 指令 集中 提供 了 特殊 指令 用 于 在 
地 址 计算 中 进行 乘 数 为 某 些 常数 〈 比 如 2、4、8 等 ) 的 乘法 运算 ) 。 


在 这 标 树 中 ， 运 算 符 ind 把 它 的 参数 作为 内 存 地 址 处 理 。 作 为 一 个 
赋值 运算 符 的 左 子 结 皮 ，ind 结 扩 指 出 了 一 个 内 存 位置 ， 该 位 置 用 来 存 
放 赋 值 运算 符 右 部 的 右 值 。 如 果 一 个 + 或 者 训 d 运 算 符 的 茶 个 参数 是 内 存 
位 置 或 寄存 器 ， 那 么 该 内 存 位 置 或 寄存 器 中 的 内 容 就 是 参数 的 值 。 这 柠 
树 的 叶子 结 扣 的 标号 为 属性 ， 而 下 标 表示 属性 的 值 。 


目标 代码 是 通过 应 用 一 个 树 重 写 规则 序列 来 生成 的 ， 这 些 规 则 最 终 
会 把 输入 的 树 归 约 为 单个 结 点 。 各 个 树 重 写 规则 形 如 





























replacement « template {action} 


其 中 ，replacement (被 蔡 换 结 点 ) 是 一 个 结 点 ，template 〈 模 板 ) 是 一 
棵 树 ，action (动作 〉 是 一 个 像 语法 制导 翻译 方案 中 那样 的 代码 片断 。 


一 组 树 重 写 规则 被 称 为 一 个 树 翻译 方案 (tree-translation 
scheme) 。 








每 个 树 重 写 规则 表示 了 如 何 翻 诺 由 模板 给 出 的 输入 树 的 一 个 片段 。 
翻译 中 包含 了 一 组 可 能 为 空 的 机 器 指令 序列 ， 该 序列 由 与 模板 关联 的 动 
作 发 出 。 和 输入 树 一 样 ， 模 板 的 叶子 是 带 有 下 标的 属性 。 有 时 ， 会 存在 
一 些 对 于 模板 中 的 下 标 值 的 约束 ， 这 些 约束 通过 语义 断言 来 表示 。 只 有 
满足 这 些 约束 才 可 以 匹配 模板 。 比 如 ， 一 个 断言 可 能 规定 茶 个 常数 的 值 
必须 位 于 茶 个 区 间 内 。 


树 翻 译 方案 可 以 很 方便 地 表示 代码 生成 器 的 指令 选择 阶段 。 作 为 树 
重 写 规则 的 例子 ， 考 虑 关于 寄存 右 到 寄存 器 加 法 指令 的 规则 : 





R; + { ADD Ri, Ri, Rj } 


小 
~ 
蕊 R; 


这 个 规则 按照 如 下 方法 使 用 。 如 果 输 入 树 包 含 一 个 和 上 面 的 模板 匹 
配 的 子 树 ， 也 就 是 说 ， 有 一 个 子 树 的 根 结 点 的 标号 是 运算 符 +， 且 其 左 
右 子 结 点 是 寄存 器 i 和 j 中 的 量 ， 那 么 我 们 可 以 把 这 个 子 树 谷 换 为 标号 为 
Ri 的 单一 结 点 ， 同 时 输出 指令 App Ri，Ri，Rj。 我 们 把 这 次 蔡 换 称 为 对 该 
子 树 的 一 次 禾 盖 tiling〉。 在 一 个 给 定时 刻 可 能 有 多 个 模板 与 菏 个 子 树 
匹配 ， 我 们 将 简要 描述 在 神 突 情况 下 决定 应 用 哪个 规则 的 一 些 机 制 。 


图 8-20 包 含 了 我 们 的 目标 机 上 的 一 部 分 指令 的 树 重 写 规 则 。 这 
旦 难 则 将 被 用 于 一 个 贯穿 本 市 的 例子 中 。 前 面 的 两 个 规则 对 应 于 加 载 指 
令 ， 接 下 来 的 两 个 规则 对 应 于 保存 指令 ， 其 余 的 规则 对 应 于 带 有 下 标的 
加 载 与 加 法 运算 。 请 注意 ， 规 则 〈8) 要 求 常 量 的 值 必须 是 1。 这 个 条 件 
将 用 一 个 语义 断言 来 描述 。 





















M 全 = { ST #Ri, Rj } 
ind R; 
Ri 


{LD Ri, a(R7) } 
















{ ADD Ri, Ri, a(R;) } 


{ ADD Ri, Ri, R; } 


{ INC Ri } 





8.9.2 ”通过 复 关 一 个 输入 树 来 生成 代码 


一 个 树 翻 译 方案 按照 下 面 的 方式 工作 。 给 定 一 个 输入 树 ， 在 这 些 树 
重 写 规则 中 的 模板 被 用 来 履 凋 输入 树 的 子 树 。 如 果 找 到 一 个 匹配 的 模 
板 ， 那 么 输入 树 中 匹配 的 子 树 将 被 丛 换 为 相应 规则 中 的 丛 换 结 皮 ， 并 且 
执行 规则 的 相关 动作 。 如 果 这 个 动作 包含 了 一 个 机 融 指 令 序列 ， 那么 就 





会 生成 这 些 指 令 。 这 个 过 程 将 一 直 重 复 ， 直 到 这 个 树 被 归 约 成 单个 结 
点 ， 或 找 不 到 匹配 的 模板 为 止 。 在 将 一 个 输入 树 归 约 成 单个 结 点 的 过 程 
由 
省 出 。 


这 样 ， 描 述 一 个 代码 生成 器 的 过 程 就 变 得 和 使 用 语法 制导 翻译 方案 
来 描述 翻译 器 的 过 程 关 似 。 我 们 写 出 一 个 树 翻 译 方案 来 描述 目标 机 的 指 
令 集合 。 在 实践 中 ， 我 们 将 试图 找到 一 个 能 够 对 每 个 输入 树 生 成 代价 最 
小 的 指令 序列 的 树 翻 译 方案 。 现 在 有 很 多 工具 可 以 帮助 我 们 根据 一 个 树 
翻译 方案 自动 生成 代码 生成 费 。 


四 我 们 用 败 8 20 的 村 秋 泽 方案 来 为 国 &19 中 的 输入 树 生成 代 
9。 假 设 第 一 个 规则 用 于 把 常量 C, 加 载 到 寄存 器 Re 中: 








1) 入 丰 网 {LD RO, #a } 


最 左边 叶子 结 点 的 标号 就 由 Ca 变 成 Ro， 同 时 生成 了 指令 LD Re, #a。 现 
在 ， 第 七 个 规则 和 最 左边 的 根 标 号 为 + 的 子 树 匹 配 : 


7) Ro + 十 { ADD RO, RO, SP } 


HS 


Ro Rsp 


使 用 这 个 规则 ， 我 们 把 这 棵 子 树 重 写 为 一 个 标号 为 Re 的 单一 结 点 ， 同 时 
生成 指令 ADD R96，R6，SP。 现 在 这 棵 树 如 下 所 示 : 


a ee 
ind 十 


此 时 ， 我 们 可 以 应 用 规则 〈5) 来 把 子 树 
ind 
CA D2 


归 约 为 单个 结 点 ， 设 其 标号 为 R1。 我 们 也 可 以 使 用 规则 (6) 把 较 大 的 
子 树 


GC; Resp 


归 约 为 单个 结 点 Ru， 并 生成 指令 App RG， Re, i CSP) 。 假 设 用 一 个 指令 
来 计算 较 大 的 子 树 要 比 计 算 较 小 的 子 树 更 加 高 效 ， 我 们 选择 规则 (6) 
得 到 下 面 的 树 : 


3 Me 
2 es 


PP 
Ind 十 
| ee 、 


Ro Ms C1 


在 右边 的 子 树 中 ， 可 将 规则 2》 可 应 用 于 叶子 结 皮 Mp， 并 产生 一 个 把 
b 加 载 到 采 个 寄存 器 《比方 说 R1) 的 指令 。 现 在， 使 用 规则 (8) 我们 可 
以 匹配 子 树 


并 生成 增 量 指令 INc R1。 至 此 ， 输 入 树 已 经 被 归 约 成 为 : 


2 
ind Ri 


fo 


剩 下 的 这 榜 树 和 规则 C4》 匹配 ， 从 而 把 这 标 树 归 约 为 单个 结 皮 ， 并 生 
成 指令 ST *R9，R1。 在 把 树 归 约 成 为 单一 结 点 的 过 程 中 ， 我 们 生成 了 下 
列 代码 序列 : 


LD RO, #a 

ADD RO, RO, SP 
ADD RO, RO, i(SP) 
LD Rls b 

INC R1 

ST *RO, R1 


为 了 实现 对 例 8.18 中 的 树 的 归 约 过 程 ， 我 们 必须 解决 一 些 和 树 模 式 
匹配 相关 的 问题 : 


。 如 何 完成 树 模 式 匹 配 ? 代码 生成 过 程 〈 在 编译 时 刻 ) 的 效率 依赖 于 
树 匹 配 算法 的 效率 。 

。 如 果 在 某 个 给 定时 刻 有 多 个 模板 可 以 匹配 ， 我 们 该 做 什么 ? 生成 的 
代码 《在 运行 时 刻 ) 的 效率 依赖 于 模板 被 匹配 的 顺序 ， 因 为 不 同 的 
人 OP Ds 


如 果 没 有 匹配 的 模板 ， 那 么 代码 生成 过 程 就 无 法 继续 了 。 在 男 一 种 
极端 情况 下 ， 我 们 要 防止 出 现 系 个 单个 结 点 被 重 写 无 穷 多 次 的 可 能 性 。 
这 种 情况 会 产生 无 穷 多 个 寄存 右 之 间 的 移动 指令 ， 或 者 无 穷 多 个 加 载 、 
保存 指令 。 





为 了 避免 阻塞 ， 我 们 假设 中 间 代 码 中 的 每 个 运算 符 都 能 够 使 用 一 个 
或 多 个 目标 机 需 的 指令 来 实现 。 我 们 进一步 假设 存在 足够 多 的 寄存 器 用 
于 计算 树 的 每 个 结 点 。 那 么 ， 不 管 树 匹配 过 程 如 何 进行 ， 剩 下 的 树 总 能 
够 被 翻译 成 为 目标 机 器 指令 序列 。 





8.9.3 ”通过 扫描 进行 模式 匹配 


在 考虑 通用 的 树 匹 配方 法 之 前 ， 我 们 先 考 虑 一 个 特殊 的 匹配 方法 。 
这 个 方法 使 用 LR 语法 分 析 强 来 完成 模式 匹配 。 输 入 树 可 以 用 前 级 方式 
表示 为 一 个 串 。 比 如 ， 图 8-19 中 的 树 的 前 级 表示 为 : 





一 ind 十 十 Co Rap ind + Ci; Rap + Mp, C1 





一 个 树 翻 译 方案 可 以 转换 为 一 个 语法 制导 的 翻译 方案 ， 方 法 是 把 每 
个 树 重 写 规则 丛 换 为 相应 的 上 下 文 无 关 文 法 的 产生 式 。 对 于 一 个 树 重 写 
规则 ， 相 应 的 产生 式 的 右 部 就 是 其 指令 模板 的 前 级 表 示 方 式 。 


加 本 图 8-21 中 的 语法 制导 翻译 方案 是 基于 图 8-20 中 的 树 翻译 方案 构 
lHYJo 











{LD Ri, #a } 

{LD Ri, zx} 

{ST wv, m} 

{ST *Ri, Ri} 

{LD Ri, a(R;) } 

+ Riind + co R; {ADD Ri, Ri, a(Rj) } 
+ Ri; Rj; { ADD Ri, Ri, Rj } 

{ INC Ri } 


有 | ee a en 1 


1) 
2) 
3) 
4) 
5) 
6) 
7) 
8) 
9) 
0) 


| 





图 8-21 由 图 8-20 构 造 得 到 的 语法 制导 翻译 方案 


相应 文法 的 非 终 结 符号 是 R 和 M。 终 结 符号 m 表 示 特 定 的 内 存 位 
置 ， 比 如 例 8.18 中 全 局 变量 b 的 位 置 。 可 以 这 么 理解 规则 (10) 中 的 产 











生 式 Mm: 在 使 用 涉及 M 的 某 个 模板 之 前 首先 要 把 M 和 上 匹配 。 类 似 
地 ， 我 们 为 寄存 器 sp 引入 终结 符 sp， 并 增加 产生 式 R _, sp。 最后， 终结 
符 c 表 示 销 量 。 

使 用 这 些 终结 符 ， 图 8-19 中 的 输入 树 对 应 的 串 是 : 


= ind 二 十 co sp ind + ci; sp + mp ce1 





根据 这 个 翻译 方案 的 产生 式 ， 我 们 可 以 使 用 第 4 章 中 的 东 个 LR 语 法 
分 析 占 构造 技术 来 构建 一 个 LR 语法 分 析 占 。 目 标 代码 通过 每 一 步 归 约 
中 发 出 的 机 器 指令 来 生成 。 


一 个 用 于 代码 生成 的 语法 具有 很 大 的 二 义 性 。 在 构造 语法 分 析 器 的 
时 候 ， 对 于 如 何 处 理 语法 分 析 动 作 冲 突 的 问题 要 多 加 小 心 。 在 没有 指令 
代价 信息 的 时 候 ， 总 体 处 理 规则 是 偏 回 于 执行 较 大 的 归 约 ， 而 不 是 较 小 
的 规约 。 这 意味 着 在 一 个 归 约 - 归 约 冲突 中 ， 优 先 选择 较 长 的 归 约 ;在 
一 个 移入 - 归 约 冲突 中 ， 优 先 选择 移入 动作 。 这 种 “ 贫 吃 ”的 做 法 使 得 多 


个 运算 由 一 条 机 器 指令 完成 。 


在 代码 生成 中 使 用 LR 语法 分 析 方 法 有 多 个 好 处 。 第 一 ， 语 法 分 析 
方法 是 局 效 的 ， 并 且 容 易 被 人们 理解 。 因 此 ， 使 用 第 4 章 中 描述 的 算法 
可 以 构造 出 可 靠 和 高 效 的 代码 生成 旨 。 第 二 ， 比 较 容 易 为 所 得 代码 生成 
融 重 新 确定 目标 。 只 要 写 出 描述 新 机 器 的 指令 集合 的 语法 ， 就 可 以 构造 
得 到 一 个 针对 新 机 器 的 代码 选择 器 。 第 三 ， 可 以 通过 增加 特殊 产生 式 来 
利用 机 器 特有 的 指令 ， 从 而 生成 高 效 的 代码 。 


但 使 用 这 个 方法 也 存在 着 一 些 挑战 。 语 法 分 析 方 法 确定 了 求 值 过 程 
必须 是 从 左 到 右 的 。 男 外 ， 对 于 菜 些 具有 很 多 种 寻 址 模式 的 机 絮 来 说 ， 
描述 机 器 的 文法 和 由 此 得 到 的 语法 分 析 韦 可 能 变 得 异常 庞大 。 其 结果 是 
人 们 不 得 不 使 用 特殊 技术 对 描述 机 需 的 文法 进行 编码 和 处 理 。 我 们 还 必 
须 注意 不 要 让 得 到 的 语法 分 析 峰 在 对 表达 式 树 进 行 语 法 分 析 的 时 候 被 阻 
答 〈( 即 无 法 进行 下 一 步 动 作 〉 。 造 成 阻塞 的 原因 可 能 是 该 文法 不 能 处 理 
某 些 运 算 符 的 模式 ， 也 可 能 是 语法 分 析 咒 在 解决 菜 些 语法 分 析 动 作 冲 突 
的 时 候 做 出 了 错误 的 选择 。 我 们 必须 保证 语法 分 析 器 不 会 进入 无 限 循 
环 ， 不 停 地 使 用 右 部 只 有 单个 符号 的 产生 式 进 行 归 约 。 无 限 循环 问题 可 
以 在 生成 语法 分 析 需 表 的 时 候 通 过 状态 分 裂 技术 来 解决 。 



































8.9.4 用 于 语义 检查 的 例 程 


在 一 个 代码 生成 翻译 方案 中 出 现 的 属性 和 输入 树 中 的 属性 是 一 样 
的 。 但 是 翻译 方案 中 的 属性 冲冲 带 有 关于 该 属性 下 标的 取 值 的 限制 。 比 
如 ， 一 个 机 需 指 令 可 能 要 求 条 个 属性 的 值 位 于 特定 范围 之 内 ， 或 者 两 个 
属性 的 取 值 之 间 有 一 定 关 系 。 


这 些 关 于 属性 值 的 限制 可 以 用 断言 来 描述 。 在 进行 归 约 之 前 需要 判 
靳 相应 的 断言 是 否 被 满足 。 实 际 上 ， 相 对 于 纯 文 法 描述 的 方式 而 言 ， 语 
义 动 作 和 断言 的 普 过 使 用 能 够 更 加 灵活 、 更 加 容易 地 对 代码 生成 圳 加 以 
描述 。 可 以 使 用 通用 模板 来 描述 各 类 指令 ， 然 后 使 用 语义 动作 来 为 特定 
情况 选择 指令 。 比 如 ， 两 种 不 同 的 加 法 指令 可 以 用 同一 个 模板 来 表示 : 














| 进 作 剖 到 汪 
Ri 全 员 INC Ri 


, else 


已 Ca ADD Ri, Ri, #a } 


可 以 通过 特定 的 断言 来 消除 二 义 性 ， 解 决 语法 分 析 - 动 作 的 冲突 问 
题 。 这 些 断 言 允 许 在 不 同 的 上 下 文中 使 用 不 同 的 选择 策略 。 因 为 目标 机 
体系 结构 的 东 些 方面 《比如 寻 址 模式 ) 可 以 用 属性 值 来 描述 ， 所 以 对 目 
标 机 器 的 描述 可 以 变 得 更 小 。 这 种 方法 的 复杂 之 处 在 于 人 们 难以 验证 该 
翻译 方案 是 否 可 靠 地 描述 了 目标 机 器 。 当 然 ， 所 有 的 代码 生成 喜 都 会 或 
多 或 少 地 磁 到 这 个 问题 。 


8.9.5 ”通用 的 树 匹 配方 法 








基于 前 级 表示 的 用 于 模式 匹配 的 LR 语法 分 析 方 法 优先 处 理 双 目 运 
算 符 的 左 运算 分 量 。 在 一 个 前 级 表示 op E1 E35 中 ， 有 限 辣 前 看 的 LR 语法 
分 析 方 法 中 有 关 扫 描 动 作 的 决定 必须 依据 Ei 的 茶 个 前 缀 做 出 。 这 是 因为 
E1 可 能 具有 任意 长 度 。 右 运算 分 量 可 能 会 带 来 一 些 能 够 在 目标 指令 集中 
选择 较 好 指令 的 机 会 。 但 是 模式 匹配 方法 可 能 会 错失 这 些 机 会 。 

















我 们 也 可 以 弃 用 前 级 表示 方式 而 使 用 后 级 表示 。 但 是 ， 一 个 用 于 模 
式 匹 配 的 LR 语 法 分 析 方 法 会 优先 处 理 右 运算 分 量 。 


对 于 一 个 手写 的 代码 生成 器 ， 我 们 可 以 使 用 图 8-20 中 所 示 的 树 模板 
作为 指南 ， 编 写 一 个 专门 的 匹配 程序 。 比 如 ， 如 果 输 入 树 的 根 的 标号 
征 ind， 那 么 唯一 能 够 匹配 的 是 规则 5 的 模式 ， 人 否则 如 宋 根 的 标号 是 +， 
那么 可 能 匹配 的 是 规则 6 一 8 的 模式 。 


对 于 一 个 可 以 生成 代码 生成 露 的 生成 器 ， 我 们 需要 一 个 通用 的 树 匹 
配 算 法 。 通 过 扩展 第 3 章 中 介绍 的 串 模 式 匹 配 技术 ， 我 们 可 以 开发 出 一 
个 高 效 的 自 顶 向 下 算法 。 其 基本 思想 是 把 每 个 模板 表示 成 一 个 串 的 集 
合 ， 其 中 每 个 串 对 应 于 模板 中 的 一 条 从 根 到 茶 个 叶 结 点 的 路 径 。 通 过 在 
串 中 《从 左 到 右 地 ) 为 每 个 子 结 点 加 入 位 置 编 号 ， 我 们 平等 地 处 理 每 个 


:二 箔 八 量 - 


二 恒信 星 。 


在 为 一 个 指令 集 构建 串 集 合 的 时 候 ， 我 们 将 去 掉 下 标 。 因 为 进 
行 模 陈 匹配 时 只 考 碟 属性 ， 而 不 考虑 它们 的 值 。 


图 8-22 中 的 模板 有 如 下 的 从 根 到 叶子 结 点 的 串 集 合 : 














C 

二 1R 

二 2indl+1l1C 
+210d1+2R 
十 2 已 





图 8-22 一 个 用 于 树 匹 配 的 指令 集 


囊 C 表 示 以 C 为 根 的 模板 。 串 + 1 R 表 示 以 + 为 根 的 两 个 模板 中 的 + 号 


和 它 的 左 运算 分 量 R。 


使 用 例 8.22 中 的 串 集 合 可 以 构造 出 一 个 树 模 式 匹 配 程序 。 该 程序 使 
用 了 可 以 高 效 地 并 行 匹配 多 个 串 的 技术 。 


在 实践 中 ， 树 重 写 过 程 可 以 按照 如 下 方法 实现 : 对 输入 树 进行 深度 
优先 过 历 的 同时 运行 树 模 式 匹配 程序 ， 并 且 在 最 后 一 次 访问 这 个 结 点 的 
时 候 进 行 归 约 。 


如 果 要 考虑 指令 代价 的 问题 ， 可 以 给 每 个 树 重 写 规则 关联 一 个 代价 
值 。 这 个 值 等 于 应 用 这 个 规则 时 所 产生 的 代码 序列 的 总 代价 。 在 8.11 市 
中 ， 我 们 将 讨论 一 个 可 以 和 树 模式 匹配 算法 联合 使 用 的 动态 规划 算法 。 


通过 并 发 地 运行 该 动态 规划 算法 ， 我 们 可 以 使 用 各 个 规则 相关 的 代 
价 信息 来 选择 一 个 最 优 的 匹配 序列 。 我 们 要 在 各 个 候选 序列 的 代价 值 都 
确定 之 后 再 决定 使 用 哪个 匹配 序列 。 使 用 这 个 方法 ， 可 以 根据 一 个 树 重 
写 方案 快速 地 构造 出 一 个 小 而 高 效 的 代码 生成 器 。 不 仅 如 此 ， 动 态 规划 
算法 使 得 代码 生成 器 的 设计 者 不 需要 再 去 解决 匹配 冲突 的 问题 ， 或 者 诀 
定 求 值 的 顺序 。 








8.9.6 ”8.9 节 的 练习 








练习 8.9.1: 为 下 面 的 语句 构造 抽象 语法 树 。 假 设 所 有 不 是 常量 的 运 
算 分 量 都 存放 在 内 存 中 。 





1 )x=a*b+t+c*d; 
2.) [i] s yli] * zli)s 


3)x=x+1; 





使 用 图 8-20 中 的 树 重 写 方案 来 为 每 个 语句 生成 代码 。 


练习 8.9.2: 使 用 图 8-21 中 的 语法 制导 翻译 方案 来 奉 代 树 翻译 方案 ， 
重复 练习 8.9.1。 


练习 8.9.3: 扩展 图 8-20 中 的 树 重 写 方案 ， 使 之 可 应 用 于 while 语 


练习 8.9.4: 扩展 树 重 写 技术 使 之 应 用 于 DAG。 


8.10 ”表达 式 的 优化 代码 的 生成 


当 一 个 基本 块 仪 包含 单一 的 表达 式 求 值 时 ， 或 者 我 们 认为 以 逐次 处 
理 各 个 表达 式 的 方式 为 基本 块 生 成 代码 就 已 经 足够 了 了， 那么 我 们 就 可 以 
最 佳 地 选择 寄存 器 。 在 下 面 的 算法 中 ， 我 们 引入 对 一 个 表达 式 树 ( 即 一 
个 表达 式 的 语法 树 ) 的 结 点 添加 数字 标号 的 方案 。 在 使 用 固定 个 数 的 寄 
。 个 表达 式 求 值 的 情况 下 ， 该 方案 允许 我 们 为 表达 式 生 成 最 优 











8.10.1 Ershov 数 


一 开始 ， 我 们 给 一 个 表达 式 树 的 每 个 结 点 各 赋予 一 个 数值 。 该 数 表 
示 如 果 我 们 不 把 任何 临时 值 存放 回 内 存 的 话 ， 计 算 该 表达 式 需 要 多 少 个 
寄存 器 。 这 些 数 有 时 被 称 为 Ershov 数 (Ershov number) 。 这 是 根据 
A.Ershov 命 名 的 ， 他 为 只 有 一 个 算术 寄 # 存 器 的 机 器 使 用 了 类 似 的 方案 。 
对 我 们 的 机 器 模型 而 言 ， 计 算 Ershov 数 的 规则 如 下 : 


1) 所 有 叶子 结 点 的 标号 为 1。 

只 有 一 个 子 结 点 的 内 部 结 点 的 标号 和 其 子 结 点 的 标号 相同 。 
3) 具有 两 个 子 结 反 的 内 部 结 点 的 标号 按照 如 下 方式 确定 : 
QD 如 果 两 个 子 结 点 的 标号 不 同 ， 那 么 选择 较 大 的 标号 。 


RR 吉 点 的 标号 相同 ， 那 么 它 的 标号 就 是 子 结 点 的 标号 
上 一 





在 图 8-23 中 ， 我 们 可 以 看 到 一 个 表达 式 树 (其 中 的 运算 符 已 经 
具 ) 。 这 个 树 可 能 是 表达 式 (a-b) +ex (c+td) 的 树 ， 或 者 说 是 下 
面 的 三 地 址 代码 的 树 : 


tli=a-b 
t2= c+d 
t3 = ee * t2 
t4 = ti + t3 





图 8-23 一 个 用 Ershov 数 标号 的 树 


根据 规则 (1〉， 该 树 的 五 个 叶子 结 点 的 标号 都 是 1。 然 后 ， 我 们 可 以 给 
对 应 于 t1=a-b 的 内 部 结 点 加 上 标 写 ， 因 为 它 的 两 个 子 结 反 都 已 经 被 加 上 
了 标 写 。 应 用 规则 3， 该 结 反 的 标号 是 它 的 子 结 点 的 标 写 加 上 1， 也 束 是 
2。 对 应 于 t2=c+d 的 结 点 的 标 写 的 计算 方式 与 此 类 似 。 


现在 我 们 可 以 计算 对 应 于 t3=e*t2 的 结 点 的 标号 。 它 的 子 结 点 的 标 
号 是 1 和 2， 因 此 根据 规则 3，t3 对 应 结 点 的 标号 是 其 中 的 较 大 值 ， 即 2。 
最 后 计算 根 结 点 ， 即 对 应 于 t4=t1+t3 的 结 点 。 它 的 两 个 子 结 点 的 标号 都 
是 2， 因 此 它 的 标号 是 3。 














8.10.2 ”从 帝 标 号 的 表达 式 树 生成 代码 





假设 在 我 们 的 机 器 模型 中 ， 所 有 的 运算 分 量 都 必须 在 寄存 器 中 ， 且 
寄存 器 可 以 同时 用 于 存放 某 个 运算 的 运算 分 量 和 结果 。 可 以 证 明 ， 如 采 
在 计算 表达 式 的 过 程 中 不 允许 把 中 间 结 果 保 存 回 内 存 ， 那 么 一 个 结 点 的 
标 写 就 等 于 计算 该 结 皮 对 应 的 表达 式 时 需要 的 最 少 的 寄存 右 个 数 。 因 为 
在 这 个 机 器 模型 中 ， 我 们 必须 把 每 个 运算 分 量 加 载 到 寄存 器 中 ， 且 必须 
计算 每 个 内 部 结 皮 所 对 应 的 中 间 结 果 ， 所 以 ， 造 成 生成 代码 不 是 最 优 代 




















码 的 唯一 可 能 是 我 们 使 用 了 不 必要 的 将 临时 结果 存 回 内 存 的 指令 。 对 这 
个 断言 的 证 明 包 含 在 下 面 的 算法 中 。 这 个 算法 生成 的 代码 不 包含 将 临时 
结果 存 回 内 存 的 指令 ， 而 这 个 代码 所 使 用 的 寄存 占 数 目 残 是 根 结 点 的 标 


3, 
根据 一 个 带 标号 的 表达 式 树 生成 代码 。 


输入 : 一 个 带 有 标号 的 表达 式 树 ， 其 中 的 每 个 运算 分 量 只 出 现 一 次 
〈《 即 没有 公共 子 表达 式 ) 。 


输出 : 计算 根 结 点 对 应 的 值 并 将 该 值 存放 在 一 个 寄存 器 中 的 最 优 的 
机 需 指 令 序列 。 


方法 : 下 面 是 一 个 用 来 生成 机 器 代码 的 递归 算法 。 从 树 的 根 结 点 开 
始 应 用 下 面 的 步骤 。 如 果 算 法 被 应 用 于 一 个 标号 为 k 的 结 点 ， 那 么 得 到 
的 代码 只 使 用 k 个 寄存 器 。 然 而 ， 这 些 代码 从 某 个 基线 b (b>1) 开始 使 
用 寄存 器 ， 实 际 使 用 的 寄存 器 是 Ri，Ri,1，...，R 1。 计算 结果 总 是 
存放 在 Rpyyi 中 。 


1) 为 一 个 标号 为 k 且 两 个 子 结 反 的 标号 相同 (它们 的 标 写 必然 是 k- 
1) 的 内 部 结 点 生成 代码 时 ， 做 如 下 处 理 : 


GD 使 用 基线 b+1 递 归 地 为 它 的 右 子 树 生成 代码 。 其 右 子 树 的 结果 将 
存放 在 寄存 器 Ru 中 。 


@ 使 用 基线 b， 递 归 地 为 它 的 左 子 树 生成 代码 。 其 左 子 树 的 结果 将 
存放 在 寄存 器 Ru, > 中。 


G@) 生成 指令 “OP Rpix1，Rpik2，Rpbrk1 ”其 中 op 是 标号 为 k 的 结 点 对 
应 的 运算 。 


2) 假设 我 们 有 一 个 标号 为 k 的 内 部 结 点 ， 其 子 结 点 的 标号 不 相等 。 
那么 ， 它 必然 有 一 个 子 结 点 的 标号 为 k， 我 们 称 之 为 "大 子 结 点 ">， 而 另 
一 个 子 结 点 的 标号 为 某 个 m<k， 它 被 称 为 小子 结 点 ”。 使 用 基线 b， 通 
过 下 列 步 又 为 这 个 内 部 结 点 生成 代码 ; 


G 使 用 基线 bp， 递归 地 为 大 子 结 点 生成 代码 ， 其 结果 存放 在 寄存 器 














Rpsk1 中 。 

@ 使 用 基线 b， 弟 归 地 为 小 子 结 点 生成 代码 ， 其 结果 存放 在 寄存 器 
Rpim1 中 。 请 注意 ， 因 为 m<k， 寄存 器 Rb 和 编号 更 高 的 寄存 器 都 没有 
被 使 用 。 

@ 根据 大 子 结 点 是 该 内 部 结 点 的 右 子 结 点 还 是 左 子 结 点 ， 分 别 生 


成 指令 “0P Rpwk1，Rbrm-1， Rbik1 "或 者 “OP Rove1， Rbrk1; Rb+m1”。 














3) 对 于 代表 运算 分 量 x 的 叶子 结 点 ， 当 基线 为 b 时 生成 指令 “LD Rb， 
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例 8.25| 让 我 们 把 算法 8.24 应 用 于 图 8-23 中 的 树 。 因 为 根 结 点 的 标号 是 
3， 具 结果 将 存放 在 R3 中 ， 并 且 只 有 寄存 器 Ri1、R2、Rs 被 使 用 。 根 结 点 
的 基线 是 b=1。 因 为 根 结 点 的 两 个 子 结 点 的 标号 相同 ， 我 们 首先 以 2 为 基 
线 生成 右 子 结 点 的 代码 。 

当 我 们 为 根 结 点 的 标号 为 (3 的 右 子 结 点 生成 代码 时 ， 我 们 发 现 该 子 
结 点 的 大 子 结 点 是 其 右 子 结 点 ， 而 小 子 结 点 是 其 左 子 结 点 。 这 样 ， 我 们 
首先 以 2 为 基线 生成 右 子 结 点 的 代码 。 应 用 针对 具有 相同 标号 子 结 点 和 
叶子 结 点 的 规则 ， 我 们 为 标号 忆 的 结 点 生成 下 列 代码 : 


LB R33 色 
LB R22, 雹 
ADE R3 R2: R3 


接 下 来 ， 我 们 为 根 结 皮 的 右 子 结 点 的 左 子 结 点 生成 代码 。 这 是 一 个 
标号 为 e 的 叶子 结 点 。 因 为 b=2， 正 确 的 指令 是 











LD R2, e 
现在 我 们 加 上 指令 
MUL RS R22 I 
束 完 整地 生成 了 根 结 点 的 右 子 结 点 的 代码 。 算 法 继续 以 1 为 基线 生成 根 


结 扣 的 左 子 结 扣 的 代码 ， 并 把 结果 放 在 R; 中 。 图 8-24 中 显示 了 生成 的 全 
部 指令 序列 。 


R3, 
R2 ， 
R3, 
R2 ， 
R3 ， 


Rz25 
RL 
RZs Rl B2 
R3, R22, Re 





图 8-24 图 8-23 中 的 树 的 最 优 的 三 地 址 代码 
8.10.3 ”寄存 器 数量 不 足 时 的 表达 式 求 值 


当 可 用 寄存 器 的 数量 少 于 树 的 根 结 点 的 标号 时 ， 我 们 不 能 直接 应 用 
算法 8.24。 此 时 需要 引入 一 些 保存 指令 ， 把 某 些 子 树 的 值 溢出 到 内 存 
中 ， 然 后 在 必要 的 时 候 生成 加 载 指令 把 那些 值 再 加 载 到 寄存 器 中 。 下 面 
是 一 个 经 过 修改 的 代码 生成 算法 ， 它 考虑 了 寄存 右 数 量 的 限制 。 


根据 一 个 带 标号 的 表达 式 树 生 成 代码 。 


输入 : 一 个 市 有 标号 的 表达 式 树 和 寄存 器 的 数量 r>2。 表 达 式 树 的 
每 个 运算 分 量 只 出 现 一 次 ( 即 没 有 公共 子 表 达 式 )。 


输出 : 计算 根 结 点 对 应 的 值 并 将 其 存放 到 一 个 寄存 器 中 的 最 优 的 机 
A a 
为 R1, R,, ..., R 











下 2 


方法 : 令 基线 b=1， 从 根 结 点 开始 应 用 下 面 的 递归 算法 。 对 于 标号 
为 [或 者 更 小 的 结 点 N， 本 算法 和 算法 8.24 完 全 一 样 ， 这 里 不 再 重复 。 但 
征 ， 对 于 标号 k>r 的 内 部 结 点 ， 我 们 要 分 别处 理 该 内 部 节点 的 各 个 子 结 
扩 ， 并 把 较 大 子 树 的 结果 保存 到 内 存 中 。 该 结果 在 对 结 点 N 求 值 之 前 才 
从 内 存 重 新 加 载 ， 而 最 后 的 求 值 步骤 将 在 Ri 和 R, 内 进行 。 对 于 基本 算 
法 的 改动 如 下 : 


1) 结 点 N 至 少 有 一 个 子 结 点 的 标号 为 [或 者 大 于 r。 选 择 较 大 的 子 结 
点 《如 果子 结 点 标号 相同 则 选择 任意 一 个 ) 作为 “大 " 子 结 点 ， 并 把 另外 
一 个 子 结 点 作为 “小 * 子 结 点 ， 


2) 令 基线 b=1， 递 归 地 为 大 子 结 点 生成 代码 。 这 个 求 值 的 结果 将 存 
放 在 寄存 器 Re 中 。 


3) 生成 机 器 指令 “sT tt，R.”， 其 中 是 一 个 用 于 存放 中 间 结 果 的 临 
时 变量 。 这 个 变量 用 于 对 标号 为 k 的 结 点 求 值 。 


4) 按照 如 下 方式 为 小 子 结 点 生成 代码 。 如 果 小 子 结 反 的 标号 大 于 
或 等 于 ， 选 取 基 线 b=1。 如 果 小 子 结 点 的 标号 为 j<r， 选 取 基 线 b=r-j。 然 
后 递归 地 把 本 算法 应 用 于 小 子 结 点 ， 其 结果 存放 在 R, 中 。 


5) 生成 指令 “LD Ri，t。 


6) 如 果 大 子 结 点 是 N 的 右 子 结 点 ， 生 成 指令 “oP R.，Rr.，Rw1”。 如 
果 大 子 结 点 是 N 的 左 子 结 点 ， 生 成 代码 “oP RL，R.1，Rr”。 


| 现在 假设 r=2， 让 我 们 重新 回顾 一 下 图 8-23 所 代表 的 表达 式 。 
融 征 说 ， 只 有 寄存 器 RL1 和 R2 可 以 用 来 存放 表达 式 求 值 过 程 中 产生 的 临 
时 结果 。 当 我 们 把 算法 8.26 应 用 到 图 8-23 中 时 ， 我 们 看 到 根 结 点 的 标号 
(3) 大 于 r=2。 这 样 ， 我 们 需要 选择 其 中 的 一 个 子 结 点 作为 大 子 结 点 。 
因为 子 结 点 的 标号 相同 ， 我 们 可 以 任 选 其 中 的 一 个 。 假 设 我 们 选择 了 石 
子 结 点 作为 大 子 结 扩 。 


因为 根 结 点 的 大 子 结 点 的 标号 为 2， 因 此 寄存 器 是 够 用 的 。 我 们 把 
算法 8.24 应 用 到 这 个 子 树 ， 其 中 基线 b=1， 而 寄存 器 个 数 为 2。 最 终 的 结 
果 和 我 们 在 图 8-24 中 生成 的 代码 很 相似 ， 但 原来 的 寄存 器 R2 和 R3 被 蔡 换 
为 R1 和 R2。 人 代码 如 下 : 









































LD R2, d 
LD Ri1, c 
ADD R2, R1, R2 
LD Ri1i, e 
MUL R2, R11, R2 


0 
日 人 ~ 


ST t3, R2 


接 下 来 处 理 根 结 点 的 左 子 结 点 。 同 样 ， 寄 存 器 的 数量 足以 处 理 这 个 子 结 
点 ， 代 码 如 下 : 


LD R2, 
LD Ri, a 
DUB Ra Bi Ra 


最 后 ， 我 们 用 指令 
LD Ri bt 
ee 
日 人 ~ 


ADD R2, R2, R1 
执行 树 的 根 结 点 上 的 运算 。 完 整 的 指令 友 列 显示 在 图 8-25 中 。 





图 8-25 ”图 8-23 中 的 树 的 最 优 的 三 寄存 器 代码 (只 使 用 两 个 寄存 器 ) 
于 二 SN 
8.10.4 ”8.10 节 的 练习 


练习 8.10.1: 计算 下 列表 达 式 的 Ershov 数 。 
1) a/ (b+c) -d* (e+f) 

2) atb* (ck (dte) ) 

3). (aap ( (bq Crtr) ) 


a 练习 8.10.2: 使 用 两 个 寄存 器 为 练习 8.10.1 中 的 各 个 表达 式 生 成 最 优 
代码 。 


本 练习 8.10.3: 使 用 三 个 寄存 器 为 练习 8.10.1 中 的 各 个 表达 式 生成 最 优 
代码 。 


! 练习 8.10.4: 将 Ershov 数 的 计算 方法 一 般 化 ， 使 之 能 够 处 理 其 中 





某 些 内 部 结 点 具有 三 个 或 更 多 的 子 结 点 的 表达 陈 树 。 


! 练习 8.10.5: 类 似 于 a [i] =x 的 对 数组 元 素 的 赋值 看 起 来 像 一 个 具 
有 三 个 运算 分 量 (a、i 和 x》 的 运算 符 。 你 将 如 何 修 改 给 表达 式 树 添 加 
标 写 的 方案 ， 以 便 为 这 种 机 器 模 型 生成 最 优 的 代码 ? 


! 练习 8.10.6: 最 初 的 Ershov 数 技术 所 应 用 的 机 恬 模型 和 书 中 的 模 
型 有 所 不 同 。 该 模型 允许 一 个 表达 式 的 右 运 算 分 量 存 放 在 内 存 中 ， 而 不 
一 定 要 存放 在 寄存 需 中 。 你 将 如 何 修改 为 表达 式 树 添 加 标号 的 方案 ， 使 
得 它 可 以 为 这 种 机 器 模型 生成 最 优 代码 ? 


! 练习 8.10.7: 茶 些 机 絮 要 求 使 用 两 个 寄存 器 来 存放 条 些 单 精度 
值 。 假 设 单 寄存 器 值 的 乘法 的 结果 需要 两 个 连续 的 寄存 占 ， 而 当 我 们 计 
算 a/b 时 ，a 的 值 必须 存放 在 两 个 连续 的 寄存 器 中 。 你 将 如 何 修改 为 表达 
式 树 添 加 标 写 的 方 采 ， 使 得 它 可 以 为 这 种 机 器 模型 生成 最 优 代码 ? 

















8.11 使 用 动态 规划 的 代码 生成 


8.10 市 中 的 算法 8.26 根 据 一 个 表达 式 树 生 成 最 优 代码 所 需 的 时 间 是 
树 的 大 小 的 线性 函数 。 适 合 使 用 这 个 过 程 的 机 器 要 满足 以 下 假设 : 所 有 
的 计算 都 在 寄存 器 中 完成 ， 而 指令 中 包含 的 运算 符 要 么 作用 于 两 个 寄存 
项 ， 要 么 作用 于 一 个 寄存 顺和 一 个 内 存 位 置 。 


基于 动态 规划 原理 的 算法 可 以 应 用 到 更 多 类 型 的 机 器 上 ， 使 得 人 们 
可 以 在 线性 时 间 内 为 一 个 表达 式 树 生成 最 优 代码 。 动 态 规 划算 法 可 以 被 
应 用 到 具有 复杂 指令 集 的 多 种 计算 机 上 。 


只 要 一 个 机 器 具有 Fr 个 可 互 换 的 寄存 器 R8@，R1，…， Rr-1I 以 及 加 载 、 保 

存 和 运算 指令 ， 束 可 以 应 用 基于 动态 规划 的 算法 为 这 个 机 器 生成 代码 。 

为 简 音 起见， 我们 假设 每 个 指令 的 代价 是 一 个 成 本 单位 。 然 而 ， 即 使 每 

EA 
情况 。 














8.11.1 连续 求 值 


动态 规划 算法 把 为 一 个 表达 式 生 成 最 优 代 码 的 问题 分 解 成 为 多 个 为 
该 表达 式 的 子 表达 式 生 成 最 优 代码 的 子 问题 。 作 为 一 个 简单 的 例子 ， 考 
上 处 一 个 形 如 E1+E, 的 表达 式 E。E 的 一 个 最 优 程序 由 E11 和 E, 的 最 优 程序 以 
某 种 顺序 组 合 而 成 ， 然 后 是 对 + 求 值 的 代码 。 为 E1 和 E, 生 成 最 优 程序 的 
子 问 题 也 以 类 似 的 方式 解决 。 

由 动态 规划 算法 产生 的 最 优 程序 有 一 个 重要 的 性 质 。 该 代码 以 “ 连 
”的 方式 计算 表达 式 E=Ei op E，。 我 们 可 以 通过 查看 E 的 语法 树 T 来 理 


续 
解 这 句 话 的 含义 。 





这 里 ，T] 和 TT, 分 别 是 E1 和 E, 的 语法 树 。 





我 们 说 一 个 程序 P 连 续 计 算 一 检 树 T， 如 果 它 首先 计算 那些 需要 计算 
值 并 将 其 存放 到 内 存 中 的 T 的 子 树 。 然 后 ， 它 再 计算 TI 的 其 余部 分 ， 计 
算 的 顺序 可 以 是 Ti，T2， 根 结 点 ， 或 者 T?，T1， 根 结 点 。 无 论 在 哪 种 情 
况 下 ， 作 为 非 连续 计算 的 一 个 例子 ， 程 序 P 可 能 和 匈 计算 Ti 的 一 部 分 并 把 
结 末 存 放 在 一 个 寄存 器 中 《而 不 是 内 存 中 ) ， 然 后 计算 T，， 然 后 再 回 过 
来 计算 Ti 的 其 余部 分 。 


对 于 本 节 中 的 寄存 器 机 器 ， 我 们 可 以 证 明 对 于 任何 一 个 计算 表达 式 
树 T 的 机 器 语言 程序 P， 我 们 都 可 以 找到 一 个 等 价 的 程序 P'"， 使 得 


1) P' 的 代价 不 高 于 P 的 代价 。 

2) P' 使 用 的 寄存 器 不 多 于 P 使 用 的 寄存 器 ， 而 且 

3) P' 连 续 地 对 该 树 求 值 。 

这 个 结果 表明 ， 每 个 表达 式 树 可 以 用 一 个 连续 程序 最 优 地 求 值 。 


相对 而 言 ， 使 用 偶数 -奇数 寄存 器 对 的 计算 机 不 一 定 总 是 具有 最 优 
的 连续 求 值 过 程 。x86 体 系 结构 在 乘法 和 除法 中 使 用 寄存 器 对 。 对 于 这 
样 的 机 器 ， 我 们 可 以 给 出 一 些 表达 式 树 的 例子 。 这 些 树 的 最 优 机 器 语言 
程序 必须 首先 对 根 的 左 子 树 的 一 部 分 进行 求 值 并 把 结 采 存放 到 寄存 器 
中 ， 然 后 处 理 右 子 树 的 一 部 分 ， 再 处 理 左 子 树 的 男 一 部 分 ， 如 此 往复 。 
使 用 本 节 中 的 机 器 对 任意 一 个 表达 式 树 进行 最 优 求 值 时 ， 没 有 必要 进行 
这 种 类 型 的 摆动 。 

上 面 定义 的 连续 求 值 的 性 质保 证 了 对 于 任何 表达 式 树 T， 总 是 存在 


一 个 最 优 程序 。 这 个 程序 由 根 结 点 的 子 树 的 最 优 程序 组 成 ， 最 后 是 计算 
根 结 点 值 的 指令 。 这 个 性 质 文 持 我 们 使 用 一 个 动态 规划 算法 为 T 生 成 一 
































个 最 优 程序 。 
8.11.2 ”动态 规划 的 算法 


动态 规划 算法 有 三 个 步骤 《假设 目 标 机 器 具有 Tr 个 寄存 右 ) : 


1) 对 表达 式 树 T 的 每 个 结 点 n 自 底 向 上 地 计算 得 到 一 个 代价 数组 
C， 其 中 C 的 第 i 个 元 素 C [ij 是 在 假设 有 i (1<i<r) 个 可 用 寄存 占 的 情况 
下 对 以 an 为 根 的 子 树 $ 求 值 并 将 结果 存放 在 一 个 寄存 器 中 的 最 优 代 价 。 


2) 人 吉 历 T， 使 用 代价 向 量 ( 数 组 〉 来 决定 T 的 哪 棵 子 树 应 该 个 计算 
并 保存 到 内 存 中 。 


3) 使 用 每 个 结 点 的 代价 癌 量 和 相关 指令 来 过 有 历 各 棵 子 树 并 生成 最 
终 的 目标 代码 。 在 这 个 过 程 中 ， 首 先 为 那些 需要 把 结果 值 保 存 到 内 存 的 
子 树 生 成 代码 。 


上 述 每 一 个 步骤 都 可 以 高 效 地 实现 ， 运 行 所 需 时 间 与 表达 式 树 的 大 
小 成 线性 关系 。 


计算 一 个 结 反 n 的 代价 包括 在 给 定 寄存 器 数量 的 情况 下 对 S 求 值 时 所 
再 要 的 全 部 加 载 和 保存 运算 ， 也 包括 了 计算 S 的 根 结 点 处 的 运算 符 所 需 
要 的 代价 。 代 价 辐 量 的 第 0 个 元 素 存放 的 是 把 子 树 S 的 值 计 算出 来 并 保存 
到 内 存 的 最 优 代 价 。 只 需要 考 碟 $ 的 根 结 点 的 各 子 树 的 最 优 程序 的 不 同 
组 合 ， 就 可 以 生成 $ 的 最 优 程序 。 这 是 由 连续 求 值 的 性 质 来 确保 的 。 这 
个 限制 减少 了 需要 考虑 的 情况 。 


为 了 计算 结 点 na 的 代价 C Lij ， 我 们 像 8.9 节 中 那样 把 指令 看 作 古 树 
重 写 规划。 考虑 和 结 皮 n 处 的 输入 树 相 匹配 的 各 个 模板 E。 只 要 检查 n 的 
相应 后 代 的 代价 向 量 ， 就 可 以 确定 对 E 的 叶子 结 点 所 代表 的 运算 分 量 进 
行 求 值 时 所 需要 的 代价 。 对 于 E 的 寄存 器 运算 分 量 ， 考 虑 对 工 的 相应 子 
树 求 值 并 放 到 寄存 右 中 的 各 种 可 能 的 顺序 。 在 每 个 顺 友 中， 第 一 个 对 应 
于 茶 个 寄存 器 运算 分 量 的 子 树 可 以 使 用 i 个 寄存 器 ， 而 第 二 个 则 使 用 i-1 
个 寄存 器 ， 以 此 类 推 。 考 虑 结 点 n 时 ， 需 要 加 上 和 模板 E 相 关 的 指令 的 代 
价 。C [ij] 的 值 就 是 所 有 这 些 可 能 的 顺序 所 对 应 的 代价 值 中 的 最 小 者 。 


























整 棵 树 T 的 代价 向 量 可 以 用 目 底 同上 的 方式 计算 。 计 算 所 需 时 间 和 
TI 中 结 点 的 个 数 呈 线性 正比 关系 。 在 每 个 结 点 上 为 各 个 i 值 保存 用 于 获得 
最 优 代价 C [ij 所 使 用 的 指令 可 以 带 来 方便 。T 的 根 结 点 的 代价 向量 中 
的 最 小 值 给 出 了 对 T 求 值 所 需 的 最 小 代价 。 


W213 考虑 有 两 个 寄存 器 Re、R1 及 下 列 的 指令 的 机 器 。 每 个 指令 的 代 
介 是 一 个 成 本 单位 ; 





LD Ri1, My // Ri = MY 
op Ri, Ri, R’ // Ri = Ri op R) 
op Ri, Ri, My // Ri = Ri op MI 
LD Ri, Rj // Ri = Ry 
ST Mi, R; // Mi = By 





在 这 些 指令 中 ，Ri 可 以 是 Re 或 者 RL， 而 Wj 则 是 一 个 内 存 位 置 。 运 算 
符 op 对 应 于 某 个 算术 运算 符 。 


让 我 们 应 用 动态 规划 算法 为 图 8-26 中 的 语法 树 生 成 最 优 的 代码 。 在 
第 一 步 中 ， 我 们 计算 每 个 结 点 的 代价 癌 量 。 这 些 癌 量 在 图 中 各 个 结 扣 的 
劳 边 显示 。 为 了 说 明代 价 计算 方法 ， 考 虑 在 叶子 结 点 a 处 的 代价 向量 。 
C [0j 《〈 即 计算 a 并 保存 到 内 存 的 代价 ) 是 0， 因 为 它 已 经 在 内 存 中 了 。 
C [1 《 即 计算 a 并 保存 到 一 个 寄存 器 的 代价 ) 是 1， 因 为 我 们 可 以 使 用 
指令 LD Re，a 把 它 加 载 到 一 个 寄存 器 中 。C [2]」〈 即 在 有 两 个 可 用 寄存 
器 的 情况 下 把 a 加 载 到 一 个 寄存 器 中 的 代价 ) 和 只 有 一 个 可 用 寄存 需 的 
情况 下 的 代价 是 一 样 的 。 因 此 ， 在 叶子 结 点 a 上 的 代价 向量 是 0，1， 
二 





























图 8-26 表达 式 (a-b) tc* (d/e) 的 语法 树 ， 每 个 结 点 都 标 有 代价 向 量 


考虑 一 下 根 结 反 处 的 代价 癌 量 。 我 们 首先 确定 在 有 一 个 及 两 个 可 用 


寄存 器 的 情况 下 计算 根 结 点 所 需 的 最 小 代价 。 因 为 根 结 点 的 标号 是 +， 

所 以 机 器 指令 ApDD R9，R9，M 和 根 结 点 匹配 。 使 用 这 个 指令 ， 在 只 有 一 个 
可 用 寄存 器 的 情况 下 对 根 结 点 求 值 的 最 小 代价 的 计算 方法 如 下 : 对 其 右 
子 树 求 值 并 存放 到 内 存 的 最 小 代价 ， 加 上 计算 其 左 子 树 并 保存 到 寄存 器 
的 最 小 代价 ， 再 加 上 该 指令 的 代价 1。 不 存在 其 他 的 最 小 代价 的 计算 方 
式 。 在 根 结 点 的 左右 子 结 点 上 的 代价 问 量 说 明 在 只 有 一 个 可 用 寄存 右 的 
情况 下 对 根 结 点 求 值 的 最 小 代价 是 5+2+1=8。 


现在 考虑 有 两 个 可 用 寄存 器 时 对 根 结 点 求 值 的 最 小 代价 。 根 据 用 于 
计算 根 结 点 的 不 同 指令 ， 以 及 对 根 结 点 的 左右 子 树 求 值 的 不 同 顺 序 ， 需 
要 考虑 三 种 情况 。 


1) 使 用 两 个 可 用 寄存 器 计算 左 子 树 的 值 并 放 到 寄存 器 Re 中 ， 使 用 
一 个 可 用 寄存 器 计算 右 子 树 的 值 并 放 到 寄存 器 Ri 中， 并 使 用 指令 ADD 
R9，R9，R1 来 计算 根 结 点 。 这 个 指令 序列 的 代价 是 5+2+1=8。 


2) 使 用 两 个 可 用 寄存 器 计算 右 子 树 的 值 并 存放 到 Ri 中 ， 使 用 一 个 
可 用 寄存 器 计算 左 子 树 的 值 并 存放 到 Re 中 ， 并 使 用 指令 ApD Re6，R9，R1 
计算 根 结 点 。 这 个 指令 序列 的 代价 为 4+2+1=7。 


3) 计算 右 子 树 的 值 并 保存 到 内 存 位 置 M 中 ， 使 用 两 个 可 用 寄存 器 计 
算 左 子 树 的 值 并 保存 到 寄存 器 R0 中 ， 并 使 用 指令 ADD R6， R96, M 计 算 根 结 
点 的 值 。 这 个 指令 序列 的 代价 是 5+2+1=8。 


可 见 ， 第 二 种 选择 给 出 了 最 小 的 代价 7。 


计算 根 结 点 的 值 并 保存 到 内 存 中 的 代价 等 于 使 用 所 有 可 用 寄存 器 计 
算 根 结 点 的 值 的 最 小 代价 再 加 上 1。 也 就 是 说 ， 我 们 首先 计算 根 结 点 并 
将 其 存放 到 一 个 寄存 器 中 ， 然 后 保存 结果 。 因 此 ， 在 根 结 把 处 的 代价 问 


量 是 (8，8，7) 





























根据 代价 向 量 ， 我 们 可 以 很 容易 地 通过 对 树 的 损 历 构造 出 代码 序 
列 。 假 设 有 两 个 可 用 寄存 上 器， 图 8-26 的 树 的 最 优 代 码 序列 是 : 





LD RO, c 
LD R1, d 


DIV R1, Ri1, 
MUL RO, RO, 


LD R1, a 


SUB R1, Ri1, 
ADD R1, R1, 


// RO 
// Rl 
// Ri 
// RO 
// Ri 
// Ri 
// Rl 


R1 + RO 


动态 规划 技术 已 经 在 很 多 编 诺 器 中 使 用 ， 这 些 编 译 右 包括 可 移植 C 
编译 器 版 本 2， 即 PCC2。 因 为 动态 规划 技术 可 以 用 到 很 多 类 型 的 机 顺 
上 ， 这 个 技术 促进 了 编译 器 的 可 重 定 同 特性 的 发 展 。 


8 1113 &@11 节 的 冯 习 





练习 8.11.1: 在 图 8-20 中 的 树 重 写 方案 中 增加 代价 信息 ， 并 用 动态 
规划 和 树 匹 配 技术 来 为 练习 8.9.1 中 的 语句 生成 代码 。 


! ! 练习 8.11.2: 你 将 如 何 扩展 动态 规划 技术 ， 以 便 在 DAG 的 基础 


上 生成 最 优 代码 ? 


8.12 第 8 童 总 结 


代码 生成 是 编译 器 的 最 后 一 个 步骤 。 代 码 生 成 器 把 前 端 生 成 的 中 间 
表示 形式 映射 为 目标 程序 。 如 果 存 在 一 个 代码 优化 阶段 ， 那 么 代码 
生成 器 的 输入 就 是 代码 优化 器 生成 的 中 间 表 示 形 式 。 

指令 选择 是 为 每 个 中 间 表 示 语 句 选 择 目 标语 言 指令 的 过 程 。 

寄存 器 分 配 是 决定 哪些 IR 值 将 会 保存 在 寄存 器 中 的 过 程 。 图 着 色 算 
法 是 一 个 在 编译 器 中 完成 寄存 器 分 配 的 有 效 技 术 。 

寄存 器 指派 是 决定 用 哪个 寄存 器 来 存放 一 个 给 定 的 IR 值 的 过 程 。 
可 重 定向 编译 器 是 能 够 为 多 个 指令 集 生 成 代码 的 编译 器 。 

虚拟 机 是 一 些 字 节 代 码 中 间 语 言 的 解释 程序 ， 这 些 字 节 代码 是 为 诸 
如 Java 和 C# 这 样 的 语言 生成 。 

C1SC 机 器 通常 是 一 个 二 地 址 机 器 。 它 的 寄存 器 相对 较 少 ， 有 几 种 寄 
存 器 类 型 ， 并 具有 复杂 寻 址 模式 的 可 变 长 指令 。 

RISC 机 器 通常 是 一 个 三 地 址 机 器 。 它 拥有 很 多 寄存 器 ， 且 运算 都 在 
寄存 器 中 进行 。 

基本 块 是 一 个 三 地 址 语句 的 最 大 连续 序列 。 控 制 流 只 能 从 它 的 第 一 
个 语句 进入 ， 并 从 最 后 一 个 语句 离开 ， 中 间 没 有 停顿 ， 且 除了 基本 
块 的 最 后 一 个 语句 之 外 没有 分 支 语 句 。 

流 图 是 程序 的 一 种 图 形 化 表示 方式 。 其 中 图 的 结 点 是 基本 块 ， 而 图 
的 边 显示 了 控制 流 如 何在 基本 块 之 间 流 动 。 

流 图 中 的 循环 是 一 个 强 连通 的 区 域 。 这 个 区 域 只 有 一 个 被 称 为 循环 
首 结 点 的 入 口 。 

基本 块 的 DAG 表 示 是 一 个 有 问 无 环 图 。DAG 中 的 结 点 表示 基本 块 
中 的 语句 ， 而 一 个 结 点 的 各 个 子 结 点 所 对 应 的 语句 是 最 晚 对 该 结 点 
对 应 语句 的 某 个 运算 分 量 进行 定 值 的 语句 。 

窥 孔 优化 是 一 种 提高 代码 质量 的 局 部 变换 。 它 通常 通过 一 个 滑动 窗 
口 作 用 于 一 个 程序 。 

指令 选择 可 以 通过 一 个 树 重 写 过 程 完成 。 在 这 个 过 程 中 ， 对 应 于 机 
器 指令 的 树 模 式 被 用 来 逐步 覆盖 一 棵 语法 树 。 我 们 可 以 把 树 重 写 规 
则 和 相应 的 指令 代价 关联 起 来 ， 并 应 用 动态 规划 技术 来 为 多 种 类 型 
的 机 器 和 表达 式 生 成 最 优 的 履 盖 方式 。 

Ershov 数 指出 了 如 果 不 把 任何 临时 值 保存 回 内 存 中 ， 对 一 个 表达 式 
求 值 需要 多 少 个 寄存 器 。 

溢出 代码 是 一 个 把 某 个 寄存 器 中 的 值 保 存 到 内 存 中 的 指令 序列 。 这 
































些 指令 的 目的 是 在 寄存 器 中 腾 出 空间 ， 以 保存 为 一 个 值 。 
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论 。 


虽然 RISC 的 历史 可 以 退 溯 到 更 早 的 计算 机 中 ， 比 如 最 先 在 1964 年 
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装 的 通用 计算 机 仍然 是 CISC 机 器 ， 因 为 它们 都 基于 Intel 80x86 或 其 后 代 
《比如 Pentium 芯 片 ) 的 体系 结构 。 在 1963 年 交付 的 Burroughs B5000 是 

一 个 早期 的 栈 计算 机 。 


本 章 中 给 出 的 很 多 关于 代码 生成 的 局 发 式 规则 已 经 被 用 到 不 同 的 编 
译 器 中 。 我 们 描述 了 在 循环 执行 时 用 固定 数量 寄存 器 存放 变量 的 策略 。 
这 个 策略 被 Lowry 和 Medlock 用 在 Fortran H 的 实现 中 [13] 。 


高 效 的 寄存 器 分 配 技术 在 编译 器 出 现 的 最 早 时 代 就 开始 研究 了 。 把 
图 着 色 算 法 作为 一 种 寄存 器 分 配 技术 是 由 Cocke、Ershov [8」 和 
Schwartz [15] 提出 的 。 针 对 寄存 器 分 配 ， 人 们 提出 了 很 多 种 图 着 色 算 
法 的 变 体 。 我 们 处 理 图 着 色 的 方法 来 自 于 Chaitin [3] [4] 。Chow 和 
Hennessy 在 [5] 中 描述 了 他 们 的 可 用 于 寄存 器 分 配 的 基于 优先 级 的 着 
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来 处 理 指令 的 自动 选择 。 表 格 驱 动 的 代码 生成 器 发 展 成 为 多 个 基于 树 模 
式 匹 配 的 代码 生成 工具 [14] 。 在 代码 生成 工具 twig 中 ，Aho、 
Ganapathi 和 Tjiang [2] 把 高 效 的 树 模式 匹配 技术 和 动态 规划 技术 结合 
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需 的 生成 历 中 进一步 精 化 了 这 些 思想 。 
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[全 原文 如 此 。 如 果 s 的 某 个 运算 分 量 在 基本 块 内 没有 在 s 之 前 被 定 
值 ， 那 么 这 个 运算 分 量 对 应 的 子 结 点 就 是 代表 该 运算 分 量 的 初始 值 的 结 
点 。 译 者 注 





[2] 总 的 来 说 ， 在 从 DAG 生 成 代码 时 我 们 必须 非常 小 心地 处 理 变量 的 
名 字 。 如 果 变 量 x 被 定 值 两 次 ， 或 者 虽然 只 赋值 一 次 但 初始 值 xo 被 使 用 
过 ， 那 么 必须 保证 不 会 在 原先 存放 x 值 的 结 点 被 全 部 使 用 之 前 改变 x 的 
值 。 


[31 在 编译 时 刻 对 算术 表达 式 求 值 时 ， 必 须 使 用 和 运行 时 刻 相同 的 
求 值 方 法 。K. Thompson 给 出 了 一 个 很 完美 的 解决 方法 : 对 常量 表达 式 
进行 编译 ， 在 目标 机 上 执行 目标 代码 ， 然 后 把 表达 式 痊 换 为 执行 结 
按照 这 样 的 做 法 ， 编 译 器 就 不 需要 另 带 一 个 解析 器 。 


[4]1 然 而， 减法 运算 可 能 引起 上 溢 或 下 溢 ， 而 比较 指令 不 会 引起 这 
个 问题 。 





[51 即 不 能 跨越 括号 求 值 一 一 译 者 注 。 
[6 实际 并 非 如 此 ， | 由 4 个 结 点 组 成 的 圈 中 ， 每 个 结 点 都 有 两 条 
边 ， 但 是 却 存 在 2- 着 色 方 案 : 奇数 点 为 白色 ， 而 偶数 点 为 黑色 。 作 者 的 


意思 可 能 是 指 难以 在 适 当 的 时 间 内 找 出 k- 着 色 方案 





译 者 注 。 


第 9 章 ”机 咒 无 天 优化 


如 果 我 们 简单 地 把 每 个 高 级 语言 结构 独立 地 翻译 成 为 机 器 代码 ， 那 
么 会 带 来 相当 大 的 运行 时 刻 的 开销 。 本 章 讨 论 如 何 消 除 这 样 的 低 效 率 因 
素 。 在 目标 代码 中 消除 不 必要 的 指令 ， 或 者 把 一 个 指令 序列 蔡 换 为 一 个 
0 0 0 


局 部 代码 优化 (在 一 个 基本 块 内 改进 代码 ) 的 相关 知识 已 经 在 8.5 
节 介 绍 过 了 。 本 章 将 处 理 全 局 代码 优化 问题 。 在 全 局 优化 中 ， 代 码 的 改 
进 将 考虑 在 多 个 基本 块 内 发 生 的 事情 。 我 们 将 在 9.1 节 中 讨论 一 些 主要 
的 代码 改进 机 会 。 


大 部 分 全 局 优化 是 基于 数据 流 分 析 (data-flow analyse) 技术 实现 
的 。 数 据 流 分 析 技 术 是 一 组 用 以 收集 程序 相关 信息 的 算法 。 所 有 数据 流 
分 析 的 结果 都 具有 相同 的 形式 : 对 于 程序 中 的 每 个 指令 ， 它 们 描述 了 该 
指令 每 次 执行 时 必然 成 立 的 一 些 性 质 。 不 同性 质 的 分 析 方 法 各 不 相同 。 
比如 ， 对 于 常量 传播 分 析 而 言 ， 要 判断 在 程序 的 每 个 点 上 ， 程 序 使 用 的 
各 个 变量 是 人 否 在 该 点 上 具有 唯一 的 常量 值 。 比 如 ， 这 个 信息 可 以 用 于 把 
变量 引用 蔡 换 为 常量 值 。 另 一 个 例子 是 ， 活 跃 性 分 析 确 定 在 程序 的 每 个 
点 上 ， 在 某 个 变量 中 存放 的 值 是 否 一定 会 在 被 读 取 之 前 被 履 凋 反 。 如 果 
是 ， 我 们 就 不 需要 在 寄存 器 或 内 存 位 置 上 保留 这 个 值 。 


我 们 将 在 9.2 三 介绍 数据 流 分 析 拉 术 。 其 中 还 包括 几 个 重要 的 例 
子 ， 说 明 我 们 如 何 使 用 在 全 局 范围 内 收集 到 的 信息 来 改进 代码 。9.3 市 
将 介绍 一 个 数据 流 框架 的 总 体 思 想 ，9.2 节 中 的 数据 流 分 析 技 术 是 这 个 
框架 的 特例 。 我 们 实际 上 可 以 使 用 同一 个 算法 来 解决 这 些 数 据 流 分 析 的 
实例 。 我 们 还 能 够 度量 这 些 算法 的 性 能 ， 并 且 证 明 它 们 对 所 有 分 析 技 术 
的 实例 而 言 都 是 正确 的 。9.4 节 是 总 体 框架 的 一 个 例子 ， 它 的 分 析 功 能 
比 前 面 的 例子 更 强大 。 然 后 ， 我 们 将 在 9.5 节 中 考虑 一 个 被 称 为 “部 分 见 
余 消 除 ?的 功能 强大 的 技术 。 这 个 技术 可 用 于 优化 程序 中 各 个 表达 式 求 
值 的 位 置 。 这 个 问题 的 解决 方案 由 不 同 的 数据 流 分 析 问 题 的 解决 方案 通 
过 组 合 而 得 到 。 


在 9.6 节 ， 我 们 将 讨论 程序 中 循环 的 发 现 和 分 析 。 对 循环 的 识别 引 









































出 了 力 一 个 用 来 解决 数据 流 问 题 的 算法 族 。 这 些 算法 基于 一 个 结构 展 好 
的 《〈 即 可 归 约 的 ) 程序 中 的 循环 的 层次 结构 。 这 个 处 理 数 据 流 分 析 的 方 
法 将 在 9.7 节 中 讨论 。 最 后 ， 在 9.8 市 中 将 使 用 层次 化 分 析 来 消除 归纳 变 
量 ( 归 纳 变 量 本 质 上 束 是 用 来 对 循环 的 达 代 次 数 进行 计数 的 变量 ) 。 这 
种 代码 改进 是 我 们 能 够 对 那些 由 常用 程序 设计 语言 书写 的 程序 所 做 的 最 
重要 的 改进 之 一 。 








9.1 优化 的 主要 来 源 


编译 器 的 优化 必须 保持 源 程序 的 语义 。 除 了 一 些 非常 特殊 的 场合 之 
外 ， 一 旦 程序 员 选 择 并 实现 了 茶 种 算法 ， 编 译 器 不 可 能 完全 理解 这 个 程 
序 并 把 它 葵 换 为 一 个 全 然 不 同 且 更 加 高 效 的 等 价 算法 。 编 译 器 只 知道 如 
何 应 用 一 些 相 对 低层 的 语义 转换 。 在 进行 转换 时 ， 编 译 器 用 到 一 些 负 见 
的 性 质 ， 比 如 像 it0=i 这 样 的 代数 恒等式 或 使 用 一 些 程序 语义 “如 在 同样 
的 值 上 进行 同样 的 运算 必然 得 到 同样 的 结果 ) 。 








9.1.1 多余 的 原因 





在 一 个 典型 的 程序 中 会 存在 很 多 元 余 的 运算 。 有 时 ， 在 源 代 码 中 会 
用 到 元 余 。 比 如 ， 程 序 员 可 能 发 现 重 新 计算 茶 些 结果 会 更 为 直接 和 方 
便 ， 而 让 编译 器 去 发 现实 际 上 只 需要 进行 一 次 这 样 的 计算 。 但 更 多 的 时 
候 ， 元 余 性 是 使 用 高 级 程序 设计 语言 编程 的 副产品 。 在 大 部 分 程序 设计 
语言 〈 不 包含 C 或 者 C++， 它 们 允许 对 指针 进行 算术 运算 ) 中 ， 程 序 员 
别 无 选择 ， 只 能 使 用 类 似 于 A [ij [jj] 或 Xf 人 的 方式 来 访问 一 个 数组 
的 元 系 或 一 个 结构 的 字段 。 


当 一 个 程序 被 编译 后 ， 每 一 个 这 样 的 高 层 数据 结构 访问 都 会 被 扩展 
成 为 多 个 低层 次 的 算术 运算 ， 比 如 计算 一 个 矩阵 A 的 第 〈i，j) 个 元 素 
的 位 置 的 运算 。 对 同一 个 数据 结构 的 访问 通常 共享 了 很 多 公共 的 低层 运 
算 。 程 序 员 不 知道 这 些 低 层 运算 ， 因 此 不 能 自己 去 消除 这 些 见 余 。 实 际 
上 ， 从 软件 工程 的 角度 看 ， 程 序 员 只 通过 数据 元 素 的 高 层 名 字 来 访问 它 
们 是 比较 好 的 做 法 。 这 样 ， 程 序 容易 书写 ， 并 且 更 重要 的 是 ， 程 序 更 容 
易 理 解 和 演化 。 通 过 让 一 个 编译 器 来 消除 这 些 元 余 ， 我 们 在 两 个 方面 都 
得 到 了 最 好 的 结果 : 程序 不 仅 高 效 而 且 易 于 维护 。 
































9.1.2 ”一 个 贯 罕 本 章 的 例子 : 快速 排序 


接 下 来 ， 我 们 将 使 用 被 称 为 快速 排序 〈quicksort) 的 排序 程序 的 片 


断 来 说 明 几 个 重要 的 可 以 改进 代码 的 转换 。 在 图 9-1 中 的 C 程 序 是 从 
Sedgewick 由 那里 拿 来 的 ， 它 讨论 了 如 何 对 这 样 一 个 程序 进行 手工 优 
化 。 我 们 将 不 会 在 这 里 讨论 这 个 程序 在 算法 方面 的 所 有 精妙 细 市 ， 比 
如 ，a [0」 必 然 存放 着 已 经 排 好 序 的 元 素 的 最 小 者 ， 而 a Lmaxj」 则 存放 


最 大 的 元 素 。 











void quicksort(int m, int n) 


/* 递归 地 对 a[m] 和 a[nj 之 间 的 元 素 排序 */ 


{ 


int i, j; 
1 和 
if (n <= m) return; 
/* 片断 由 此 开始 */ 
i= m-l; j =n; v= aln]; 
While (1) { 

do i = i+l; while (a[i] < v); 

do j = j-1; while (a[j] > v) ; 

if (i >= j) break; 

x = a[i]j; a[i] = a[jj; a[j] = x; /* 对 换 a[i] 和 a[j]*/ 
4 
x = a[i]; a[li] = a[lnj; a[n] = x; /* 对 换 a[i] 和 a[n] */ 
/* 片断 在 此 结束 */ 


quicksort(m,j); quicksort(i+1,n); 





图 9-1 快速 排序 算法 的 0 代码 


在 我 们 可 以 优化 掉 地 址 计算 中 的 元 余 之 前 ， 程 序 中 的 地 址 运算 首先 
必须 被 分 解 成 为 低层 次 的 算术 运算 ， 这 样 才 能 暴露 出 见 余 之 处 。 在 本 章 
的 其 余部 分 ， 我 们 假设 中 间 表 示 形 式 由 三 地 址 语句 组 成 ， 其 中 所 有 的 中 
间 表 达 式 的 结果 都 由 临时 变量 来 存放 。 在 图 9-1 中 标记 出 的 程序 片断 的 








中 间 代 码 显 示 在 图 9-2 中 。 


if t3<v goto (5) 

j 关于 1 

t4 = 4*j 

t5 = a[t4] 

if t5>v goto (9) 

if i>=j goto (23) a[t12] = t14 
t6 = 4*i 七 15 = 4*n 

x = a[t6] a[t15] = x 





图 9-2 ”图 9-1 中 程序 片断 的 三 地 址 代码 


在 这 个 例子 中 ， 我 们 假设 整数 占用 4 个 字 节 。 赋 值 运算 x=a [i] 按照 
6.4.4 节 中 的 方法 被 翻译 成 为 图 9-2 中 (14) 、 (15) 步 所 示 的 两 个 三 地 
正 语 和 匈 ， 册 


t6 = 4*1 
x = a[t6] 


类 似 地 ，a [j] =x 变 成 了 第 (20) 和 (21) 步 ， 即 


t10 = 4*j 
区 [| 过 泛 


请 注意 ， 在 原 程 序 中 的 每 个 数组 访问 都 被 翻译 成 为 一 对 语句 ， 其 中 包含 
一 个 乘法 和 一 个 数组 下 标 运 算 。 结 有 末 ， 这 个 短 短 的 程序 片断 被 翻 译 成 为 
一 个 相当 长 的 三 地 址 运算 序列 。 


图 9-3 是 图 9-2 中 的 程序 的 流 图 。 基 本 块 Bi 是 其 入 口 结 点 。8.4 节 介绍 
过 ， 图 9-2 中 所 有 的 条 件 和 无 条 件 跳 转 语句 的 目标 在 图 9-3 中 都 被 蔡 换 为 
以 它们 的 目标 语句 为 首 语 句 的 基本 块 。 在 图 9-3 中 有 三 个 循环 。 基 本 块 
B, 和 Bs 本 身 就 是 循环 。 基 本 块 B,、B3、B4、Bs 一 起 组 成 了 一 个 循环 ， 








其 中 B, 是 唯一 的 入 口 结 点 O 












本 一 下 
t4 = 4*j 

t5 = a[t4] 

If 七 5>V goto B, 





















图 9-3 ”快速 排序 代码 片断 的 流 图 


9.1.3 ”你 持 语 义 不 变 的 转换 





编译 器 可 以 使 用 很 多 种 方法 改进 一 个 程序 ， 但 不 改变 程序 所 计算 的 
函数 。 公 共 子 表达 式 消除 、 复 制 传播 、 死 代码 消除 和 和 营 量 折合 部 是 这 样 


人 
方法 。 

一 个 程序 中 经 常 包含 对 同一 个 值 的 多 次 计算 ， 比 如 计算 数组 中 的 偏 
移 量 。9.1.2 节 提 到 过 ， 菏 些 这 样 的 重复 计算 不 可 能 由 程序 员 来 避免 ， 因 
为 这 些 计 算 过 程 处 于 可 在 源 语言 中 处 理 的 细节 的 更 下 层 。 比 如 ， 在 图 9- 
4a 中 显示 的 基本 块 Bs 中 对 4*i 和 4#j 进 行 了 重复 计算 ， 尽 管 这 些 计算 全 都 
不 是 程序 员 显 式 要 求 的 。 

















4*1 B, 
XxX a[t6] 
七 7 4*1 
t8 4*] 
t9 a [七 8 ] 
a[t7] = 七 9 
七 10 = 4*] 
a [七 10 ] 
goto B, 

Bb; 





b) 消除 之 后 


图 9-4 局 部 公共 子 表达 式 消除 


9.1.4 ”全 局 公共 子 表达 式 





如 果 表 达 式 E 在 某 次 出 现 之 前 已 经 被 计算 过 ， 并 且 E 中 变量 的 值 从 
那 次 计算 之 后 就 一 直 没 被 改 变 ， 那 么 E 的 该 次 出 现 就 称 为 一 个 公共 子 表 
达 式 (common subexpression) 。 如 果 将 E 的 上 一 次 计算 结果 赋予 变量 
x， 且 x 的 值 在 中 间 没 有 被 改变 内 ， 那 么 我 们 就 可 以 使 用 前 面 计算 得 到 的 
值 ， 从 而 避免 重新 计算 E。 


[三 列 在 图 9-4a 中 对 t7 和 tle 的 赋值 分 别 计算 了 公共 子 表达 式 4*i 和 
4j。 这 些 步 又 已 经 在 图 9-4b 中 被 消除 了 。 消 除 后 的 代码 使 用 te 来 蔡 代 
t7， 使 用 t8 来 蔡 代 t16。 


[网 加 图 9-5 显 示 了 从 图 9-3 中 流 图 的 基本 块 B5 和 B6 中 消除 全 局 和 局 部 
公共 子 表达 式 之 后 的 结果 。 我 们 首先 讨论 对 Bs 的 转换 ， 然 后 再 讨论 一 些 
和 数组 相关 的 精妙 之 处 。 


如 图 9-4b 所 示 ， 在 消除 局 部 公共 子 表达 式 之 后 ，Bs 仍 然 对 4*i 和 4*j 
进行 求 值 。 它 们 都 是 公共 子 表 达 式 。 更 明确 地 讲 ， 使 用 在 Bs 中 计算 得 到 
的 {4 的 值 ，Bs 中 的 三 个 语句 








t8 = 4*j 
t9 = a[t8] 
a[t8] = x 


可 以 谷 换 为 


t9 = aLt4] 
a[t4] = x 
观察 一 下 图 9-5， 我 们 会 发 现 当 控制 流 从 Bs 中 计算 4 光 的 点 传递 到 Be 中 
时 ，j 和 t4 的 值 都 没有 改变 。 因 此 ， 当 需要 4*j 时 可 以 使 用 t4 来 蔡 代 。 
在 用 女 替 换 t8 之 后 ，Bs 中 的 另 一 个 公共 子 表达 式 就 显露 出 来 了 。 新 
的 子 表达 式 是 a [t4]」， 对 应 于 源 代码 层次 上 的 值 a [jj 。 当 控制 流离 开 


B3 进 入 B5 时 ， 不 仅仅 j 保 留 了 它 的 值 ，a Dj 也 保留 了 原来 的 值 。 这 个 值 
在 计算 出 来 之 后 保存 到 临时 变量 5 中 。 因 为 中 间 没 有 对 数组 a 中 元 素 的 
赋值 ， 因 此 a [jj] 的 值 不 变 。Bs 中 的 语句 


t9 = a[lt4] 

af[t6] = t9 
可 以 被 替换 为 

a[t6] = t5 


类 似 地 ， 可 以 看 出 图 9-4b 的 基本 块 Bs 中 赋 给 x 的 值 和 B, 中 赋 给 t3 的 值 相 
同 。 图 9-5 中 的 Bs 是 从 图 9-4b 的 Bs 中 消除 了 与 源 代码 级 表达 式 a [ij 和 

a [jj」 值 对 应 的 公共 子 表达 式 之 后 的 结果 。 对 于 图 9-5 中 的 Be 也 进行 了 一 
系列 类 似 的 转换 。 


图 9-5 的 Bl 和 Be 中 的 表达 式 a [Lt1] 不 被 认为 是 公共 子 表 达 式 ， 虽 然 
在 这 两 个 地 方 都 可 以 使 用 tl1。 在 控制 流离 开 B1 到 达 Be 之 前 ， 它 还 可 能 经 
过 Bs6， 而 Bc 中 存在 对 a 的 赋值 。 因 此 ，a [t1] 到 达 Be 时 的 值 可 能 和 它 离 
开 B1 时 的 值 有 所 不 同 。 把 a Lt1」 作 为 一 个 公共 子 表达 式 是 不 安全 的 。 




























B, 
t3 = af[t21] 
if t3<v gotoB, 
j = j-1 B 






t4 = 4*]j 
t5 = a[t4] 
If t5>v gotoB, 










if i>=j] gotoB¢ 








X = t3 
a[t2] = t5 
a[t4] = x 
goto B, 







图 9-5 经 过 公共 子 表达 式 消除 之 后 的 Bs 和 Be 


9.1.5 复制 传播 


图 9-5 中 的 基本 块 Bs 可 以 通过 使 用 两 个 新 转换 来 消除 x， 从 而 得 到 进 
一 步 改 进 。 其 中 的 一 个 转换 考虑 形 如 u=v 的 赋值 表达 式 ， 这 种 表达 式 被 
称 为 复制 语句 (copy statement) ， 或 者 简称 复制 。 只 要 我 们 更 加 细致 地 
考虑 例 9.2， 很 快 就 会 有 发 现 一 些 复 制 语句 。 因 为 常用 的 公共 子 表达 式 消 
除 算法 会 引入 这 些 复制 语句 ， 其 他 一 些 优化 算法 也 会 引入 这 样 的 语句 。 


| 为 了 消除 图 9-6a 中 的 公共 子 表达 式 语 句 c=d+e， 我 们 必须 使 用 新 
过 量 t 来 存放 d+e 的 值 。 在 图 9-6b 中 ， 赋 给 变量 c 的 是 变量 t 的 值 ， 而 不 




















是 表达 式 dte 的 值 。 因 为 控制 流 可 能 经 过 对 a 的 赋值 到 达 语 句 c=b+e 处 ， 
也 可 能 经 过 对 b 的 赋值 到 达 这 里 ， 因 此 把 c=d+e 蔡 换 为 c=a 或 c=b 都 是 不 正 
确 的 。 





图 9-6 在 公共 子 表达 式 消除 过 程 中 引入 的 复制 语句 


隐藏 在 复制 传播 转换 之 后 的 基本 思想 是 在 复制 语句 u=v 之 后 尽 可 能 
地 用 v 来 奉 代 u。 比 如 ， 图 9-5 的 基本 块 Bs 中 的 赋值 语句 x=t3 是 一 个 复制 
语句 。 把 复制 传播 应 用 于 Bs 会 生成 图 9-7 中 的 代码 。 这 个 改变 看 起 来 可 
能 不 像 是 一 个 改进 ， 但 是 ， 正 如 我 们 将 在 9.1.6 节 看 到 的 ， 它 给 了 我 们 消 
除 对 x 赋值 的 语句 的 机 会 。 





图 9-7 进行 复制 传播 转换 后 的 基本 块 Bs 


9.1.6 ” 死 代 人 码 消除 


如 果 一 个 变量 在 茶 一 程序 点 上 的 值 可 能 会 在 以 后 被 使 用 ， 那 么 我 们 
就 说 这 个 变量 在 该 点 上 活跃 (live)〉 。 否 则 ， 它 在 该 点 上 就 是 死 的 
(dead) 。 与 此 相关 的 一 个 想法 就 是 死 ( 或 者 说 无 用 ) 代码 。 所 谓 死 代 
码 就 是 其 计算 结果 永远 不 会 被 使 用 的 语句 。 程 序 员 不 大 可 能 有 意 引 入 死 
代码 ， 死 代码 多 半 是 因为 前 面 执 行 过 的 人 条 些 转 换 而 造成 的 。 


假设 变量 debug 在 程序 的 不 同 点 上 被 设置 为 TRUE 或 者 FALSE， 并 
自如 下 的 语句 中 使 用 : 





if (debug) Print ..- 





编译 器 可 能 能 够 推导 出 这 样 的 结果 : 每 次 程序 运行 到 这 个 语句 
时 ，debug 的 值 都 是 FALSE。 通 常 ， 出 现 这 种 情况 的 原因 古 不 管 程序 实际 
上 沼 着 什么 分 支 运行 ， 在 测试 debug 的 取 值 之 前 的 最 后 一 个 对 debug 赋 值 
的 语句 总 是 : 








debug = FALSE 


如 果 复 制 传播 把 debug 蔡 换 为 FALSE， 那 么 因为 print 语 句 不 可 能 被 运行 
到 ， 所 以 它 就 成 为 死 代码 。 我 们 可 以 把 这 个 测试 和 print 语 句 从 目标 代码 
中 全 部 消除 。 更 加 一 般 地 讲 ， 如 果 在 编译 时 刻 推 导出 一 个 表达 式 的 值 是 


常量 ， 束 可 以 使 用 该 常量 来 丛 代 这 个 表达 式 。 这 个 技术 被 称 为 常量 折 


复制 传播 的 好 处 之 一 就 是 它 经 党 把 一 些 复 制 语句 变 成 死 代 码 。 比 
如 ， 先 进行 复制 传播 再 进行 死 代码 消除 就 可 以 去 掉 图 9-7 的 代码 中 对 x 的 
赋值 ， 并 将 其 转换 成 为 


a[lt2] = t5 
a[t4] = t3 
goto B» 


这 个 代码 是 对 图 9-5 中 的 基本 块 Bs 的 进一步 改进 。 


9.1.7 ”代码 移动 


对 于 优化 工作 而 言 ， 循 环 〈 尤 其 内 部 循环 ) 是 一 个 重要 的 地 方 。 因 
为 程序 往往 会 将 它们 的 大 部 分 运行 时 间 花 费 在 循环 上 。 如 果 我 们 减少 一 
个 内 部 循环 中 的 指令 个 数 ， 即 使 因此 增加 了 该 循环 外 的 代码 ， 程 序 的 运 
行 时 间 也 可 以 减少 。 


减少 循环 内 部 代码 数量 的 一 个 重要 改动 是 代码 移动 〈code 
motion) 。 这 个 转换 处 理 的 是 那些 不 管 循环 执行 多 少 次 都 得 到 相同 结果 
的 表达 式 ( 即 循环 不 变 计算 ) ， 在 进入 循环 之 前 就 对 它们 求 值 。 请 注 
意 , “在 循环 之 前 ”的 说 法 假设 了 存在 一 个 循环 入 口 。 所 谓 循环 入 口 就 是 
一 个 基本 块 ， 所 有 循环 外 部 到 循环 的 跳 转 指令 都 以 它 为 目标 ( 见 8.4.5 
Ps 


四 了 在 下 面 的 while 语 句 中 ， 对 limit-2 的 求 值 是 一 个 循环 不 变 计算 : 
while (i <= limit-2) /* 不 改变 1]1imit 值 的 语句 */ 


进行 代码 移动 之 后 将 得 到 如 下 的 等 价 代码 : 








t = limit-2 
while (i <= t) /* 不 改变 limit 或 t 值 的 语句 */ 


现在 ，limit-2 的 计算 只 在 进入 循环 之 前 被 执行 一 次 。 之 前 ， 如 果 我 
们 重复 循环 体 n 次 ， 束 会 对 limit-2 计 算 n+1 次 。 


9.1.8 ”归纳 变量 和 强度 消减 


另 一 个 重要 的 优化 是 在 循环 中 找到 归纳 变量 并 优化 它们 的 计算 。 对 
于 一 个 变量 x， 如 果 存 在 一 个 正 的 或 负 的 常数 c 使 得 每 次 x 被 赋值 时 它 的 
值 总 是 增加 c， 那 么 x 束 称 为 “归纳 变量 *”。 比 如 ， 在 图 9-5 中 ，i 和 2 都 是 
B, 组 成 的 循环 中 的 归纳 变量 。 归 纳 变 量 可 以 通过 每 次 迭代 进行 一 次 简单 
的 增 量 运算 〈 加 法 或 减法 ) 来 计算 。 把 一 个 高 代价 的 运算 《比如 乘法 ) 
蔡 换 为 一 个 代价 较 低 的 运算 《比如 加 法 ) 的 转换 被 称 为 强度 消减 
Cstrength reduction) 。 但 是 归纳 变量 不 仅 允 许 我 们 在 适当 的 时 候 进 行 
强度 消减 优化 ， 在 我 们 沿 着 循环 运行 时 ， 如 果 有 一 组 归纳 变量 的 值 的 变 
化 保持 步调 一 致 ， 我 们 常常 可 以 将 这 组 变量 删 剩 一 个 。 


在 处 理 循 环 时 ， 按 照 “ 从 里 到 外 ”的 方式 进行 工作 是 很 有 用 的 。 也 就 
是 说 ， 我 们 应 该 从 内 部 循环 开始 ， 然 后 逐步 处 理 较 大 的 外 围 循环 。 这 
样 ， 我 们 将 看 到 这 个 优化 是 如 何 从 最 内 层 的 循环 之 一 〈 即 B3) 开始 被 应 
用 到 我 们 的 快速 排序 例子 中 的 。 请 注意 ，j 和 t4 的 值 的 步调 保持 一 致 ; 
为 4*j 被 赋 给 tt4， 每 次 的 值 减少 1 时 t4 的 值 就 减 省 4。 变 量 ) 和 t4 就 形成 了 一 
个 很 好 的 归纳 变量 对 的 例子 。 


当 一 个 循环 中 存在 两 个 或 更 多 的 归纳 变量 时 ， 有 可 能 只 留 下 一 个 而 
删除 其 他 的 变量 。 对 于 图 9-5 中 的 内 层 循环 B3， 我 们 不 能 把 或 4 完全 册 
除 。t4 在 Bs 中 使 用 ， 而 j 在 Bs 中 使 用 。 但 是 ， 我 们 可 以 用 这 个 例子 来 说 明 
强度 消减 优化 以 及 归纳 变量 消除 的 部 分 过 程 。 当 考虑 由 B,、B3、Bs、Bs 
组 成 的 外 层 循环 时 ，j 最 终 会 被 消除 。 


在 图 9-5 中 ， 关 系 t4=4*j 在 对 t4 赋 值 之 后 一 定 成 立 ， 并 且 t4 没 有 在 

去 循环 Bs 中 的 其 他 地 方 被 改变 ， 这 意味 着 关系 t4=4*j+4 在 紧 跟 语句 j=j- 

1 之 后 必然 成 立 。 因 此 我 们 可 以 用 t4=t4-4 来 蔡 代 赋值 语句 t4=4*j。 唯 一 的 
问题 是 在 我 们 第 一 次 进入 基本 块 B3 时 ，t4 还 没有 值 。 


























因为 我 们 必须 在 进入 基本 块 B3 的 时 候 保证 关系 t4=4*j 成 立 ， 所 以 在 


初始 化 j 本 号 的 基本 块 的 尾部 放置 了 一 个 对 址 的 初始 化 语句 。 这 个 语句 在 
图 9-8 中 以 附加 在 基本 块 Bi 上 的 虚线 框 表示 。 








t3 = a[t2] 
if 七 3<V goto B, 
















x = 七 3 
t14 = a[t11] 
a[t2] = t14 
a[t1] = x 


3 到: 二 3 
a[t2] = 七 5 
a[t4] = x 
goto B, 





图 9-8 ”对 基本 块 Bs 中 的 4*j 应 用 强度 消减 优化 








里 然 我 们 增加 了 一 个 指令 ,但 是 它 只 会 在 基本 块 Bj 中 执行 一 次 。 只 要 乘 
法 运算 比 加 法 或 者 减法 需要 更 多 的 时 间 ， 那 么 把 一 个 乘法 运算 答 换 为 减 
法 运算 就 能 加 快 目 标 代码 的 执行 速度 。 而 这 个 结论 在 很 多 机 占 上 部 成 


Mo 








我 们 用 另 一 个 归纳 变量 消除 的 例子 来 结束 本 节 。 在 这 个 例子 中 ， 我 
们 将 在 包含 了 B,、B3、B4 和 Be 的 外 层 循环 中 处 理 i 和 j。 


在 强度 消减 优化 被 应 用 到 分 别 环绕 B,、B3 的 两 个 内 部 循环 之 
后 ，i 利 j 的 唯一 用 途 是 计算 基本 块 B4 中 的 测试 的 结果 。 我 们 知道 1 和 t2 的 
值 满 足 关 系 t2=4*i， 而 j 和 Ht4 的 值 满 足 关系 t4=4。 因 此 ， 测 试 这 j 可 以 被 
替换 为 2>t4。 一 旦 进行 这 个 蔡 换 ，B> 中 的 i 和 Ba 中 的 j 就 变 成 了 死 变量 ， 
而 在 这 些 基本 块 中 对 它们 的 赋值 就 变 成 了 可 以 删除 的 死 代码 。 最 后 得 到 
的 法 图 如 图 9-9 所 示 。 




















5) 
B, 
t3 = a[t2] 
if 七 3<V gotoB, 
t4 = t4-4 B 





t5 = a[t4] 
if t5>v gotoB, 











a[lt2] = t5 
a[t4] = t3 
goto B, 







t14 = a[t1] 
a[lt2] = t14 


a[lt1] = t3 





图 9-9 ”归纳 变量 消除 之 后 的 流 图 


我 们 已 经 讨论 的 代码 改进 转换 都 是 很 有 效 的 。 和 图 9-3 中 原来 的 流 
图 相 比 ， 图 9-9 中 基本 块 B, 和 Bs 中 的 指令 数目 由 4 条 减少 为 3 条 。Bs 中 的 
# 令 数目 由 9 条 减少 到 3 条 ， 而 Be 中 的 指令 数目 由 8 条 减少 到 3 条 。 确 实 ， 
Bi 中 的 指令 从 4 条 指令 增长 为 6 条 指令 ， 但 是 在 这 个 代码 片断 中 Bi 只 被 执 

















行 一 次 ， 因 此 总 的 运行 时 间 几 乎 不 会 受到 B; 的 大 小 的 影响 。 
9.1.9 9.1 节 的 练习 


练习 9.1.1: 对 于 图 9-10 中 的 流 图 : 









(6) d = a+b 
(7) e = e+l 


34 


图 9-10 练习 9.1.1 的 流 图 

1) 找 出 流 图 中 的 循环 。 

2) Bi 中 的 语句 (1) 和 “(2) 都 是 复制 语句 。 其 中 a 和 b 都 被 赋予 了 
常量 值 。 我 们 可 以 对 a 和 b 的 哪些 使 用 进行 复制 传播 ， 并 把 对 它们 的 使 用 
丛 换 为 对 一 个 常量 的 使 用 ? 在 所 有 可 能 的 地 方 进 行 这 种 蔡 换 。 

3) 对 每 个 循环 ， 找 出 所 有 的 全 局 公共 子 表 达 式 。 

4) 寻找 每 个 循环 中 的 归纳 变量 。 同 时 要 考虑 在 〈2) 中 引入 的 所 有 


O 


tn 


常 


5) 寻找 每 个 循环 的 全 部 循环 不 变 计 算 。 
练习 9.1.2: 把 本 节 中 的 转换 技术 应 用 到 图 8-9 中 的 流 图 上 。 


0 0 0 


练习 9.1.4: 图 9-11 中 是 用 来 计算 两 个 同 量 A 和 B 的 点 积 的 中 间 代 
码 。 尽 你 所 能 ， 通 过 下 列 方式 优化 这 个 代码 : 消除 公共 子 表达 式 ， 对 归 
纳 变量 进行 强度 消减 ， 消 除 归 纳 变 量 。 








一 和 测 
0 
i*8 
EL 
ix*8 


BL[t3] 
= t2*t4 
dptt5 
a 
if i<n goto LL 





图 9-11 计算 点 积 的 中 间 代 码 


9.2 ”数据 流 分 析 简 介 


在 9.1 节 中 介绍 的 所 有 优化 都 依赖 于 数据 流 分 析 。“ 数 据 流 分 析 ” 指 的 
是 一 组 用 来 获取 有 关 数 据 如 何 沿 着 程序 执行 路 径流 动 的 相关 信息 的 技 
术 。 比 如 ， 实 现 全 局 公共 子 表 达 式 消除 的 方法 之 一 要 求 我 们 确定 在 程序 
的 任何 可 能 执行 路 径 上 ， 两 个 在 文字 上 相同 的 表达 式 是 否 会 给 出 相同 的 
值 。 夯 一 个 例子 是 ， 如 宋 菏 一 个 赋值 语句 的 结果 在 任何 后 续 的 执行 路 径 
中 都 没有 被 使 用 ， 那 么 我 们 可 以 把 这 个 赋值 语句 当 作 死 代 码 消除 。 这 些 
以 及 很 多 其 他 重要 问题 ， 都 可 以 通过 数据 流 分 析 来 回答 。 


9.2.1 数据 流 抽象 





从 1.6.2 节 中 可 知 ， 程 序 的 执行 可 以 看 作 是 对 程序 状态 的 一 系列 转 
换 。 程 序 状 态 由 程序 中 的 所 有 变量 的 值 组 成 ， 同 时 包括 运行 时 刻 栈 的 栈 
顶 之 下 各 个 栈 帧 的 相关 值 。 一 个 中 间 代 码 语句 的 每 次 执行 都 会 把 一 个 输 
入 状态 转换 成 一 个 新 的 输出 状态 。 这 个 输入 状态 和 处 于 该 语句 之 前 的 程 
序 点 相关 联 ， 而 输出 状态 和 该 语句 之 后 的 程序 点 相关 联 。 


当 我 们 分 析 一 个 程序 的 行为 时 ， 我 们 必须 考虑 程序 执行 时 可 能 采取 
的 各 种 通过 程序 的 流 图 的 程序 点 序列 〈“ 路 径 ?) 。 然 后 我 们 从 各 个 程序 
点 上 可 能 的 程序 状态 中 抽取 出 需要 的 信息 ， 用 以 解决 特定 数据 流 分 析 问 
题 。 在 更 加 复杂 的 分 析 中 ， 我 们 必须 考虑 调用 和 返回 执行 时 会 形成 在 不 
同 过 程 的 流 图 之 间 跳 转 的 路 笃 。 但 是 ， 在 我 们 刚 开始 研究 的 时 候 ， 我 们 
将 关注 穿越 单个 过 程 的 单个 流 图 的 路 径 。 
让 我 们 看 一 下 流 图 会 给 出 哪些 关于 可 能 执行 路 径 的 信息 。 
。 在 一 个 基本 块 内 部 ， 一 个 语句 之 后 的 程序 点 和 它 的 下 一 个 语句 之 前 
的 程序 点 相同 。 
。 如 果 有 一 个 从 基本 块 B1 到 基本 块 B, 的 边 ， 那 么 Bs 的 第 一 个 语句 之 前 
的 程序 点 可 能 紧 跟 在 B1 的 最 后 一 个 语句 后 的 程序 点 之 后 。 





这 样 ， 我 们 可 以 把 从 点 pj 到 点 p, 的 一 个 执行 路 径 〈(excution path， 人 简 


称 路 径 ) 定义 为 满足 下 列 条 件 的 点 的 序列 pl，pz，.…，pn: 对 于 每 个 
i=1, 2, ..., n-1: 


1) 要 么 pi 是 紧 靠 在 一 个 语句 前 面 的 点 ， 且 pi1 是 紧 跟 在 该 语句 后 面 








块 的 开头 。 


- 般 来 说 ， 一 个 程序 有 无 穷 多 条 可 能 的 执行 路 径 ， 执 行路 人 径 的 长 度 
并 没有 上 界 。 程 序 分 析 把 可 能 出 现在 茶 个 程序 点 上 的 所 有 程序 状态 总 结 
为 有 穷 的 特性 集合 。 不 同 的 分 析 拉 术 可 以 选择 抽象 挥 不 同 的 信息 ， 并 且 
一 般 来 说 ， 没 有 哪个 分 析 会 给 出 状态 的 完全 表示 。 


即使 是 图 9-12 中 的 简单 程序 也 描述 了 无 限 多 个 执行 路 径 。 最 短 
J 完全 执行 路 径 由 程序 点 (1，2，3，4，9) 组 成 ， 它 不 进入 任何 循 
环 。 次 短 的 路 径 执 行 一 次 循环 ， 它 由 程序 点 (1，2，3，4，5，6，7， 
8，3，4，9) 组 成 。 在 这 个 例子 中 ， 我 们 知道 在 第 一 次 执行 程序 点 
(5) 时 ， 因 为 d; 的 定 值 ，a 的 值 必然 是 1。 我 们 说 d; 在 第 一 次 迭代 的 时 候 
到 达 了 点 〈5) 。 在 其 后 的 迭代 中 ，ds 到 达 了 点 (5) ，a 的 值 是 243。 

















(1) 






2 
if read()<=0 gotoB, B, 

23 

B 


图 9-12 说 明 数 据 流 抽 象 的 例子 程序 





一 般 来 说 ， 跟 踩 所 有 路 径 上 的 所 有 程序 状态 是 不 可 能 的 。 在 数据 流 
分 析 中 ， 我 们 并 不 区 分 到 达 一 个 程序 点 的 路 径 之 间 的 差异 。 此 外 ， 我 们 
并 不 跟踪 整个 状态 ， 而 是 抽象 掉 茶 些 细节 ， 只 保留 进行 分 析 所 需要 的 数 
0 








1) 为 了 帮助 用 户 调 试 他 们 的 程序 ， 我 们 可 能 希望 找 出 在 某 个 程序 
点 上 一 个 变量 可 能 有 哪些 值 ， 以 及 这 些 值 可 能 在 哪里 定 值 。 比 如 ， 我 们 
可 能 对 在 程序 点 〈5) 上 的 所 有 程序 状态 进行 如 下 总 结 : a 的 值 总 是 
{1，243} 中 的 一 个 ， 而 它 由 {di1，ds} 中 的 一 个 定 值 。 可 能 沿 着 某 条 
路 径 到 达 某 个 程序 点 的 定 值 称 为 到 达 定 值 (reaching definition ) 。 


2) 假设 我 们 感 兴趣 的 不 是 到 达 定 值 ， 而 是 第 量 折 苔 的 实现 。 如 果 
对 变量 x 的 茶 次 使 用 只 有 一 个 定 值 可 以 到 达 ， 并 且 该 定 值 把 一 个 第 量 赋 
给 x， 那 么 我 们 可 以 简 蛙 地 把 x 丛 换 为 该 常量 。 为 一 方面 ， 如 果 有 多 个 对 
x 的 定 值 可 以 到 达 某 一 个 程序 点 ， 我 们 就 不 能 对 x 进行 常量 扩 又 转换 。 因 
此 ， 为 了 进行 常量 折合 ， 我 们 希望 找到 这 样 的 定 值 ， 对 于 录 个 给 定 的 程 
序 扩 ， 不 管 执 行 哪 条 路 径 ， 它 们 都 是 唯一 到 达 该 点 的 对 相应 变量 的 定 
值 。 对 于 图 9-12 中 的 点 〈5) ， 没 有 哪个 定 值 是 到 达 该 点 的 对 a 的 唯一 定 
值 ， 因 此 对 于 点“5)〉 上 的 a 来 说 ， 这 个 集合 是 空 的 。 即 使 一 个 变量 在 某 
个 点 上 被 唯一 定 值 ， 该 定 值 必须 把 一 个 常量 值 赋 给 该 变量 ， 才 可 能 进行 
常量 折 登 转换。 这样， 我们 可 以 简单 地 把 菜 些 变 量 描述 成 “ 非 第 量 ”， 而 
不 是 记录 它们 所 有 可 能 的 取 值 ， 或 者 所 有 可 能 的 定 值 。 


因此 ， 我 们 看 到 ， 根 据 分 析 的 目的 ， 同 样 的 信息 可 以 通过 不 同 的 方 
式 进行 概括 。 




















9.2.2 ”数据 流 分 析 模 式 


在 所 有 的 数据 流 分 析 应 用 中 ， 我 们 都 会 把 每 个 程序 点 和 一 个 数据 流 
值 (data-flow value) 关联 起 来 。 这 个 值 是 在 该 点 可 能 观察 到 的 所 有 程 
序 状态 的 集合 的 抽象 表示 。 所 有 可 能 的 数据 流 值 的 集合 称 为 这 个 数据 流 
应 用 的 域 (domain) 。 比 如 ， 到 达 定 值 的 数据 流 值 的 域 是 程序 的 定 值 集 
合 的 所 有 子 集 的 集合 。 某 个 数据 流 值 是 一 个 定 值 的 集合 ， 而 我 们 希望 把 
程序 中 的 每 个 点 和 可 能 到 达 该 点 的 定 值 的 精确 集合 关联 起 来 。 如 上 面 讨 





论 的 ， 对 于 抽象 方式 的 选择 依赖 于 分 析 的 目标 。 考 虑 到 效率 问题 ， 我 们 
只 跟踪 相关 的 信息 。 


我 们 把 每 个 语句 s 之 前 和 之 后 的 数据 流 值 分 别 记 为 IN [sj] 和 
OUT [s] 。 数 据 流 问 题 (data-flow problem ) 就 是 要 对 一 组 约束 求解 。 
这 组 约束 对 所 有 的 语句 s 限 定 了 IN Ls]」 和 OUT [sj] 之 间 的 关系 。 约 束 
分 为 两 种 :基于 语句 语义 (传递 函数 ) 的 约束 和 基于 控制 流 的 约束 。 


传递 函数 


企 一 个 语句 之 前 和 之 后 的 数据 流 值 受 该 语句 的 语义 的 约束 。 比 如 ， 
假设 我 们 的 数据 流 分 析 涉 及 确定 各 个 程序 点 上 各 变量 的 常量 值 。 如 果 变 
量 a 在 执行 语句 b=a 之 前 的 值 为 v， 那 么 在 该 语句 之 后 a 和 b 的 值 都 是 v。 一 
个 赋值 语句 之 前 和 之 后 的 数据 流 值 的 关系 被 称 为 传递 函数 〈transfer 


function ) 。 


传递 函数 有 两 种 风格 : 信息 可 能 沿 大 执行 路 径 疝 前 传播 ， 或 者 沿 着 
执行 路 径 逆 同 流 动 。 在 一 个 前 问 数 据 流 问题 中 ， 一 个 语句 s 的 传递 函数 
(通常 被 记 为 f〉 以 语句 前 的 数据 法 值 作为 输入 ， 并 产生 语句 之 后 的 新 
数据 流 值 。 也 就 是 








OUT [s] =f (IN [s] ) 


反 过 来 ， 在 一 个 逆 同 流 问题 中 ， 语 句 s 的 传递 函数 f 把 一 个 语句 之 后 的 数 
据 流 值 转变 成 为 语句 之 前 的 新 数据 流 值 。 也 就 是 : 


IN [s] =f (OUT [s] ) 








控制 流 约 束 
第 二 组 天 于 数据 流 值 的 约束 是 从 控制 流 中 得 到 的 。 基 本 块 中 的 控制 
流 很 简单 。 如 果 一 个 基本 块 B 由 语句 sS1，s>，.…，sn 顺 序 组 成 ， 那 么 Si 输 


出 的 控制 流 值 包 和 输入 si 的 控制 流 值 相同 。 也 就 是 
iN [sw SOUT [人 Pl 2 ws TL 


基本 块 之 间 的 控制 流 边 会 生成 一 个 基本 块 的 最 后 一 个 语句 和 后 继 基 


本 块 的 第 一 个 语句 之 间 的 约束 ， 这 些 约束 更 加 复杂 。 比 如 ， 如 果 对 可 能 
到 达 一 个 程序 点 的 所 有 定 值 感 兴趣 ， 那 么 到 达 一 个 基本 块 的 首 语句 的 定 
值 的 集合 就 是 到 达 它 的 各 个 前 驱 基 本 块 的 最 后 一 个 语句 之 后 的 定 值 集合 
的 并 集 。 下 一 节 将 给 出 基本 块 之 间 数 据 流 的 细 市 。 





9.2.3 ”基本 块 上 的 数据 流 模 式 


从 技术 上 讲 ， 数 据 流 模式 涉及 程序 中 每 个 点 上 的 数据 流 值 。 但 是 如 
果 我 们 认识 到 基本 块 内 部 的 数据 流 处 理 通常 很 简单 ， 就 可 以 节约 数据 流 
分 析 所 需 的 时 间 和 空间 。 控 制 流 从 基本 块 的 开始 流动 到 结尾 ， 中 间 没 有 
中 断 或 者 分 支 。 这 样 ， 我 们 就 可 以 用 进入 和 离开 基本 块 的 数据 流 值 的 方 
式 来 重新 描述 这 个 模式 。 对 于 每 个 基本 块 B， 我 们 把 紧 靠 其 前 和 紧 随 其 
后 的 数据 流 值 分 别 记 为 IN LB]」 和 OUT [LB]j 。 关 于 IN LB] 和 
OUT [Bj 的 约束 可 以 按照 下 面 的 方法 ， 根 据 关 于 B 中 的 各 个 语句 s 的 
IN [Ls] 和 OUT [sj 的 约束 得 到 。 


假设 基本 块 由 语句 sj|，s,，...，5 顺 序 组 成 。 如 果 s1 是 基本 块 B 的 第 
一 个 语句 ， 那 么 IN [Bj] =IN [s] 。 类 似 地 ， 如 果 s 是 基本 块 B 的 最 后 一 
个 语句 ， 那 么 OUT [Bj]」 =OUT [s,] 。 基 本 块 B 的 传递 函数 记 为 人 6， 它 
可 以 通过 将 该 基本 块 中 各 语句 的 传递 函数 组 合 起 来 获得 该 传递 函数 。 也 
就 是 说 ， 设 f. 是 语句 s; 的 传递 函数 ， 那 么 fs =f,,。… 。fiz。f'1。 该 基本 
块 的 开头 和 结尾 处 的 数据 流 值 的 关系 是 


OUT [Bj] =fs (IN [Bl] ) 








因 基 本 块 之 间 的 控制 流 而 产生 的 约束 可 以 很 容易 地 通过 重 写 得 到 ， 
把 原来 约束 中 的 IN Ls1」 和 OUT [Ls,j」 分 别 蔡 换 为 IN LB] 和 OUT [Bj] 
即 可 。 比 如 ， 如 果 一 个 数据 流 值 表 示 的 是 可 能 被 赋予 某 个 变量 的 常量 
合 ， 那 么 我 们 就 得 到 一 个 前 向 流 问题 ， 其 中 


IN| B] = nT ] 
我 们 很 快 就 会 在 处 理 活 跃 变 量 分 析 时 看 到 逆 癌 数据 流 问 题 。 逆 回 数 


据 流 问 题 的 方程 是 类 似 的 ， 但 是 IN 和 OUT 值 的 角色 被 调换 了 。 也 就 是 


说 : 


IN [Bj] =fs (OUT [Bj] ) 


OUT[B| = em INLSj 


和 线性 算术 方程 不 同 ， 数 据 流 方程 通常 没有 唯一 解 。 我 们 的 目标 是 
寻找 一 个 最 “精确 的 ?请 足 这 两 组 约束 《〈 即 控制 流 和 传递 的 约束 ) 的 解 。 
也 就 是 说 ， 我 们 需要 一 个 解 ， 它 能 够 支持 有 效 的 代码 改进 ， 但 是 叉 不 会 
导致 不 安全 的 转换 。 这 些 不 安全 的 转换 改变 了 程序 计算 的 内 容 。 在 后 面 
数据 流 分 析 中 的 “保守 主义 ?部 分 对 这 个 问题 进行 了 简短 的 讨论 ， 在 9.3.4 
节 中 给 出 了 更 加 深入 的 讨论 。 在 下 面 的 小 节 中 ， 我 们 将 讨论 可 通过 数据 
流 分 析 解 诀 的 问题 的 茶 些 最 重要 的 例子 。 





9.2.4 到 达 定 值 








“到 达 定 值 ? 是 最 常见 和 有 用 的 数据 流 模 式 之 一 。 只 要 知道 当 控制 到 
达 程 序 中 每 个 点 的 时 候 ， 每 个 变量 x 可 能 在 程序 中 的 哪些 地 方 被 定 值 ， 
我 们 就 可 以 确定 很 多 有 关 X 的 性 质 。 下 面 仅 仅 给 出 两 个 例子 : 一 个 编译 
虱 能 够 根据 到 达 定 值 信息 知道 x 在 点 p 上 的 值 是 合 为 常量 ， 而 如 果 x 在 点 p 
上 被 使 用 ， 则 调试 器 可 以 指出 x 是 否 未 经 定 值 束 被 使 用 。 


如 果 存 在 一 条 从 紧 随 在 定 值 d 后 面 的 程序 点 到 达 某 一 个 程序 点 p 的 路 
径 ， 并 且 在 这 条 路 径 上 d 没 有 被 “ 儿 死 *， 我 们 就 说 定 值 d 到 达 程 序 点 p。 
如 果 在 这 条 路 入 上 有 对 变量 x 的 其 他 定 值 ， 我 们 就 说 变量 x 的 这 个 定 值 
被 * 杀 死 " 了 四。 直观 地 讲 ， 如 果 某 个 变量 x 的 一 个 定 值 q 到 达 点 p， 在 点 p 
处 使 用 的 x 的 值 可 能 就 是 由 d 最 后 定 值 的 。 




















探测 未 定 值 完 使 用 
下 面 介绍 我 们 如 何 使 用 到 达 定 值 问题 的 解 来 探测 未 定 值 先 使 用 的 





情况 。 其 守门 是 在 流 图 的 入 口 处 对 每 个 变量 x 引 入 一 个 哑 定 值 。 如 果 X 


的 哑 定 值 到 达 了 一 个 可 能 使 用 x 的 程序 点 p， 那 么 x 束 可 能 在 定 值 之 前 
被 使 用 。 请 注意 ， 我 们 永远 不 能 绝对 肯定 这 个 程序 包含 一 个 错误 。 
为 有 可 能 存在 共 种 原因 使 得 到 达 p 点 而 没有 中 庄 对 x 赋值 的 路 征 实 际 上 
并 不 存在 。 这 个 原因 可 能 涉及 复杂 的 逻辑 问题 。 











变量 x 的 一 个 定 值 是 (可 能 ) 将 一 个 值 赋 给 x 的 语句 。 过 程 参数 、 数 











组 访问 和 间接 引用 都 可 以 有 别名 ， 因 此 指出 一 个 语句 是 否 向 特定 程序 变 
量 x 赋值 并 不 是 件 容易 的 事情 。 程 序 分 析 必 须 是 保守 的 。 如 果 我 们 不 知 
者 一 个 语句 是 否 给 x 赋 了 一 个 值 ， 我 们 必须 假设 它 可 能 对 x 赋 值 。 也 惑 是 
说 ， 在 语句 s 之 后 ， 变 量 x 的 值 可 能 还 是 s 执 行 之 前 的 原 值 ， 但 也 可 能 变 
成 了 s 所 产生 的 新 值 。 为 简单 起 见 ， 在 本 章 的 其 余部 分 我 们 假设 仅仅 处 
理 没 有 别名 的 程序 变量 。 这 类 变量 包括 大 多 数 语言 中 的 局 部 标量 变量 。 
在 处 理 C 或 者 C++ 语言 时 ， 有 些 局 部 变量 的 地 址 会 被 计算 出 来 ， 这 种 局 
部 变量 不 属于 这 类 变量 。 
图 9-13 中 显示 的 是 一 个 具有 7 个 定 值 的 流 图 。 让 我 们 注意 观察 所 

j 达 基本 块 B> 的 定 值 。 所 有 在 Bi 中 的 定 值 都 到 达 了 基本 块 B 的 开头 。 
因为 在 转 回 基本 块 B, 的 循环 中 找 不 到 其 他 的 对 j 的 定 值 ， 基 本 块 B, 中 的 
定 值 ds: j=j-1 也 可 以 到 达 基 本 块 B 的 开头 。 但 是 ， 这 个 定 值 杀 死 了 定 
值 d;: j=n, 使 得 d, 不 能 到 达 Bs 和 Bj。 B, 中 的 语句 dj: i=i+1 却 不 能 到 达 
B> 的 开头 ， 这 是 因为 变量 ij 总 是 被 d7: i=u3 重 新 定 值 。 最 后 ， 定 值 
du: a=uz 也 能 够 到 达 B, 的 开头 。 
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Ben B, ={ dé } 
Kills, ={ 4} 
en 一 

gh {ow@} 


Kills ={d, 4) 


图 9-13 演示 到 达 定 值 的 流 图 


我 们 在 前 面 定 义 到 达 定 值 时 ， 有 时 人 允许 一 定 的 不 精确 性 。 但 是 它们 
都 是 在 “安全 ”或 者 说 “保守 ”的 方向 上 不 精确 。 比 如 ， 请 注意 我 们 假设 一 
个 流 图 的 所 有 边 都 可 以 通过 。 在 实践 中 这 个 假设 可 能 是 不 正确 的 。 再 比 
如 ， 在 下 面 的 程序 片断 中 ， 没 有 哪个 a 和 b 的 取 值 可 以 使 得 控制 流 真 的 能 
够 到 达 statement 2: 





if (a == b) statement 1; else if (a == b) statement 2; 


在 一 般 情况 下 ， 决 定 一 个 流 图 的 每 条 路 径 是 否 都 可 以 被 执行 是 一 个 
不 可 判定 问题 。 因 此 ， 我 们 简 蛙 地 假设 流 图 中 的 每 条 路 径 都 可 能 在 程序 
的 某 次 执行 时 人 通过。 在 大 部 分 到 达 定 值 的 应 用 中 ， 在 一 个 定 值 不 可 能 到 
达 某 点 的 情况 下 假设 其 能 够 到 达 是 保守 的 。 因 此 ， 我 们 可 以 允许 那些 在 
程序 实际 执行 中 根本 不 会 被 明 历 的 路 径 ， 我 们 也 可 以 安全 地 人 允许 定 值 罕 
越 东 个 对 同一 变量 的 不 明确 定 值 。 














数据 流 分 析 中 的 保守 主义 


实际 数据 流 值 是 通过 程序 的 所 有 可 能 执行 路 径 来 定义 的 。 所 有 的 
数据 流 模式 计算 得 到 的 都 是 对 实际 数据 流 值 的 估算 。 我 们 必须 保证 所 
有 的 估算 误差 都 在 “安全 ”的 方向 上 。 如 果 一 个 策略 性 决定 不 允许 我 们 
改变 程序 计算 出 的 内 容 ， 它 就 被 认为 是 “安全 的 ”或 者 说 “保守 
的 ”) 。 遗 憾 的 是 ， 安 全 的 策略 会 让 我 们 错失 一 些 能 够 保持 程序 含义 
的 代码 改进 机 会 。 但 实际 上 对 所 有 的 代码 优化 技术 而 言 ， 没 有 哪个 安 
全 的 策略 可 以 不 错失 任何 机 会 。 使 用 不 安全 策略 就 是 以 改变 程序 含义 
的 代价 来 加 快 代码 速度 。 一 般 来 说 ， 这 是 不 可 接受 的 。 


因此 在 设计 一 个 数据 流 模 式 的 时 候 ， 我 们 必须 知道 这 些 信息 将 如 
何 被 使 用 ， 并 保证 我 们 做 出 的 任何 估算 都 是 在 “保守 ”或 者 说 “安全 ”的 
方向 上 。 每 个 模式 和 应 用 都 要 单独 考虑 。 比 如 ， 如 果 我 们 把 到 达 定 值 
信息 用 于 钟 量 折 登 ， 那 么 把 一 个 实际 不 可 到 达 的 定 值 当 作 可 到 达 就 是 
安全 的 (我们 可 能 在 x 实际 是 一 个 常量 且 可 以 被 折合 的 情况 下 认为 x 不 
古 一 个 常量 ) ， 但 是 把 一 个 实际 可 到 达 的 定 值 当 作 不 可 到 达 就 是 不 安 
全 的 (我 们 可 能 把 x 莹 换 为 一 个 常量 ,但 是 实际 上 程序 有 时 会 赋予 x 一 
个 不 同 于 该 第 量 的 值 〉。 























到 达 定 值 的 传递 方程 


现在 我 们 为 到 达 定 值 问题 设置 约束 。 我 们 首先 检查 单个 语句 的 细 
节 。 考 虑 一 个 定 值 


d: u = V+W 





0 
故 。 


这 个 语句 “生成 ”了 一 个 变量 u 的 定 值 d， 并 “ 欠 死 * 了 程序 中 其 他 对 u 
的 定 值 ， 而 进入 这 个 语句 的 其 他 定 值 都 没有 受到 影响 。 因 此 ， 定 值 d 的 
传递 函数 可 以 被 表示 为 


fy (XxX) =gengU (x-killg) (9.1) 


其 中 geng= {d} ， 即 由 这 个 语句 生成 的 定 值 的 集合 ， 而 killa 是 程序 
中 所 有 其 他 对 u 的 定 值 。 


我 们 在 9.22 节 讨论 过 ， 一 个 基本 块 的 传递 函数 可 以 通过 把 它 包含 的 
所 有 语句 的 传递 函数 组 合 起 来 而 构造 得 到 。 下 面 我 们 会 看 到 ， 形 如 
(9.1) 的 函数 的 组 合 仍然 是 这 种 形式 。 我 们 把 这 种 形式 称 为 “生成 - 杀 
死 形式 ”。 假 设 有 两 个 函数 fx) =geni U 〈x-kil 〉 和 f(x) 
=genzU (x-kill, 〉。 那 么 


所 (f, (XxX) > =gen> U (gen1U CX-kill1 ) -kill, ) 
= (gensU (gen1-kill,) ) U (x- (killi U kill,， ) 


这 个 规则 可 以 扩展 到 由 任意 多 个 语句 组 成 的 基本 块 。 假 设 基本 块 B 
有 n 个 语句 ， 而 第 i 个 语句 的 传递 函数 为 f(x) =geniU (x-killi’〉，i=1， 
2，...，n， 那 么 基本 块 B 的 传递 函数 可 以 写成 : 


fp (x) =genpU (x-killp) 


其 中 
kills=killy U killy U ... U kill, 


genp=genmU (genn1-killh) U 〈genh_ >-kill 1-kill) U 
...U (geny-killy-kills-...-kill,) 


因此 ， 和 单个 语句 一 样 ， 一 个 基本 块 也 会 生成 一 个 定 值 集合 并 杀 死 
一 个 定 值 集合 。 集 合 gen 中 包含 了 所 有 在 紧 靠 基本 块 之 后 的 点 上 “可 
见 ” 的 该 基本 块 中 的 定 值 我 们 把 它们 称 为 “向 下 可 见 ” (downwards 
exposed) 的 。 在 一 个 基本 块 中 ， 一 个 定 值 是 问 下 可 见 的 ， 仪 当 它 没有 
被 同一 个 基本 块 中 较 后 的 对 同一 变量 的 定 值 “ 杀 死 >?。 一 个 基本 块 的 kill 
集 就 是 所 有 被 块 中 各 个 语句 杀 死 的 定 值 的 集合 。 请 注意 ， 一 个 定 值 可 能 
同时 出 现在 基本 块 的 gen 集 和 kill 集 中 。 在 这 种 情况 下 ， 该 定 值 会 被 这 个 
基本 块 生 成 ， 即 优先 考虑 该 定 值 是 否 在 gen 集 中 。 这 是 因为 在 gen-kill 形 
式 中 ，kill 集 会 在 gen 集 之 前 被 使 用 。 


基本 














di: a= 3 
d2: a= 4 


的 gen 集 是 {d,s} ， 因 为 di 不 是 向 下 可 见 的 。 基 本 块 的 kil 集 包括 了 di 和 
由 ， 因 为 dj 杀 死 了 d，d 杀 死 了 dj。 虽然 如 此 ， 因 为 减 去 kil 集 的 运算 先 
于 和 gen 集 的 并 集运 算 ， 这 个 基本 块 的 传递 函数 的 结果 中 总 是 包含 定 值 
d,。 











控制 流 方程 


下 面 我 们 考虑 根据 基本 块 之 间 的 控制 流 得 到 的 约束 集合 。 因 为 只 有 
一 个 定 值 能 够 沿 着 至 少 一 条 路 径 到 达 某 个 程序 点 ， 那 么 这 个 定 值 就 到 达 
该 程序 点 ， 所 以 只 要 从 P 到 B 有 一 条 控制 流 边 ，OUT [LP]」 SIN [Bj] 就 
成 立 。 然 而 ， 一 个 定 值 到 达 某 个 程序 点 的 必要 条 件 是 它 能 够 沿 着 某 条 路 
径 到 达 这 个 程序 点 ， 因 此 IN [Bj] 不 应 该 大 于 B 的 所 有 前 驱 基 本 块 出 口 
点 的 到 达 定 值 的 并 集 。 也 就 是 说 ， 可 以 安全 地 假设 如 下 的 方程 式 成 立 : 














IN[B] = Joi se 一个 前 最 基 本 块 OUT[ 忆 


我 们 把 并 集运 算 称 为 到 达 定 值 的 交汇 运算 〈meet operator) 。 在 任何 数 
中 ， 我 们 用 区 运算 来 汇总 各 条 路 径 会 合 点 上 不 同 路 径 所 作 的 贡 





到 达 定 值 的 迭代 算法 
我 们 假设 每 个 控制 流 图 都 有 两 个 空 基本 块 ， 包 括 代 表 了 这 个 图 的 开 
始点 的 ENTRY 结 点 以 及 EXIT 结 点 ， 所 有 离开 这 个 图 的 控制 流 都 流 问 
它 。 因 为 没有 定 值 到 达 这 个 图 的 开始 ， 所 以 基本 块 ENTRY 的 传递 函数 
是 一 个 简单 的 返回 空 集 1 的 常 函 数 ， 即 OUT [ENTRY」=0。 
到 达 定 值 问题 使 用 下 面 的 方程 定义 : 
OUT [ENTRY] =0 


且 对 于 所 有 的 不 等 于 ENTRY 的 基本 块 B， 有 


OUT [B] =genpU (IN LB] -killp) 


INL 8] -| gs TLR ] 


可 以 使 用 下 面 的 算法 来 求 这 个 方程 组 的 解 。 这 个 算法 的 结果 是 这 个 方程 
组 的 最 小 不 动 点 (least fixedpoint) ， 即 对 于 各 个 IN 和 OUT， 这 个 解 给 
出 的 值 总 是 此 方程 组 的 其 他 解 所 给 出 的 值 的 子 集 。 下 面 这 个 算法 的 结果 
是 可 接受 的 ， 因 为 在 某 个 IN 或 OUT 集 中 的 定 值 确实 可 以 到 达 该 IN 或 
OUT 所 描述 的 程序 点 。 这 个 解 也 是 我 们 所 期 望 的 ， 因 为 它 没 有 包含 任何 
我 们 确定 不 会 到 达 的 定 值 。 


站 上 ”到达 定 值 。 


输入 : 一 个 流 图 ， 其 中 每 个 基本 块 B 的 killp 集 和 genp 集 都 已 经 计算 
出 来 。 


输出 : 到 达 流 图 中 各 个 基本 块 B 的 入 口 点 和 出 口 点 的 定 值 的 集合 ， 
即 IN LB] 和 OUT [Bj] 。 


方法 : 我 们 使 用 友 代 的 方法 来 求解 。 一 开始 ， 我 们 “估计 ”对 于 所 有 
基本 块 B 都 有 OUT LB] =V0 ， 并 逐步 通 近 想 要 的 IN 和 OUT 的 值 。 因 为 我 
们 必须 不 停 迭 代 直 到 各 个 IN 值 (因此 各 个 OUT 值 也 〉 收 敛 ， 所 以 我 们 可 
以 使 用 一 个 布尔 变量 change 来 记录 每 次 扫描 各 基本 块 时 是 否 有 OUT 值 发 
生 改 变 。 但 是 ， 在 此 算法 及 以 后 描述 的 类 似 算法 中 ， 我 们 假设 用 来 跟踪 
变更 情况 的 确切 机 制 是 可 理解 的 ， 因 此 我 们 删除 了 这 些 细节 。 


图 9-14 中 粗略 地 给 出 了 这 个 算法 。 前 两 行 对 某 些 数据 流 值 进行 了 初 
始 化 外 。 从 第 (3) 行 开始 是 一 个 循环 。 在 循环 中 我 们 不 停 地 迭代 直到 
各 个 值 收敛 。 第 4) 行 到 第 (6) 行 组 成 的 内 层 循 环 对 入 口 结 反之 外 的 
所 有 基本 块 应 用 数据 流 方 程 。 


直观 地 讲 ， 算 法 9.11 尽 量 向 前 传播 各 个 定 值 ， 直 到 该 定 值 被 杀 死 ， 
这 样 做 模拟 了 程序 的 所 有 可 能 的 执行 情况 。 算 法 9.11 最 终 必 然 会 终止 ， 
因为 对 于 每 个 B，OUT [LB] 绝对 不 会 变 小 。 一 旦 某 个 定 值 被 加 入 到 
OUT 值 中 ， 它 会 一 直 待 在 那里 。〈( 见 练习 9.2.6。) 因为 所 有 定 值 的 集合 
是 有 限 的 ， 最 终 必 然 有 一 趟 while 循 环 的 执行 没有 辣 任 何 OUT 加 入 任何 


内 容 。 此 时 算法 就 终止 了 。 在 此 时 终止 迭代 是 安全 的 ， 因 为 如 果 各 个 
OUT 值 没有 改变 ， 下 一 越 中 各 个 IN 值 也 不 会 改变 。 而 如 果 各 个 IN 值 没有 
De 
OUT 的 值 。 


沈 图 中 的 结 扣 个 数 是 while 循 环 的 达 代 次 数 的 上 界 。 其 理由 是 如 果 
一 个 定 值 能 够 到 达 东 个 程序 点 ， 它 必然 可 以 通过 无 环 的 路 径 到 达 该 点 ， 
而 一 个 流 图 中 的 结 点 个 数 是 无 环 路 径 中 结 点 数 的 上 界 。 在 while 循 环 的 
每 次 欠 代 中 ， 每 个 定 值 至 少 沿 着 问题 中 的 路 径 前 进 一 个 结 点 。 而 且 ， 根 
据 各 个 结 上 在 内 层 循 环 中 被 访问 的 顺序 ， 它 经 第 一 次 前 进 多 个 结 点 。 


实际 上 ， 如 果 我 们 适当 地 安排 第 (4) 行 中 for 循 环 访问 基本 块 的 顺 
序 ， 经 验 表 明 while 循 环 的 平均 迭代 次 数 小 于 5〔( 见 9.6.7 节 )〉 。 因 为 定 值 
的 集合 可 以 使 用 位 向 量 表 示 ， 而 这 些 集合 的 运算 可 以 使 用 位 向 量 上 的 逻 
辑 运 算 来 实现 ， 算 法 9.11 在 实际 应 用 中 出 奇 地 高 效 。 


我 们 将 使 用 位 向 量 来 表示 图 9-13 中 的 七 个 定 值 0，d，.….， 

dz。 其 中 左 起 第 i 个 位 表示 d;。 集 合 的 并 运算 通过 相应 的 位 向 量 的 逻辑 
OR 运算 实现 。 两 个 集合 的 差 $-T 的 计算 方法 是 首先 计算 T 的 位 向 量 的 
补 ， 然 后 再 将 这 个 补 和 S 的 位 向 量 进行 逻辑 AND 运 算 。 


图 9-15 中 显示 的 是 算法 9.11 中 的 IN 和 OUT 集 的 取 值 。 其 初始 值 用 上 
标 0 表 示 ， 如 OUT [Bj]?。 它 们 由 图 9-14 中 的 第 (2) 行 的 循环 赋值 。 它 
们 都 是 空 集 ， 用 比特 向 量 000 0000 表 示 。 算 法 的 后 续 迭 代 中 的 取 值 也 使 
用 上 标 表 示 ， 第 一 趟 迭代 的 值 标记 为 IN [Bj] 1 和 OUT [B] 1， 第 二 趟 迭 
代 的 值 标记 为 IN [Bj] 2 和 OUT [B] >。 

















OUT[ENTRY] = 0 
for ( 除 ENTRY 之 外 的 每 个 基本 块 B) OUT[B] = 0; 
while ( 某 个 oUT 值 发 生 了 改变 ) 

for ( 除 ENTRY 之 外 的 每 个 基本 块 B) { 


IN[B] = Upgpm +i OUTIPD}; 
OUT[B| = genBs U (IN[B| ~ killp); 





图 9-14 计算 到 达 定 值 的 迭代 算法 


假设 第 (4) 行 到 第 (6) 行 的 for 循 环 在 执行 时 ，B 依 次 取 值 
Bi, B,, Bs, By, EXIT 
当 B=B1 时 ， 因 为 OUT[ ENTRY] = $9， 所 以 IN [Bi1] :是 空 集 ， 而 


OUT [Bij]! 等 于 8engp,。 这 个 值 和 前 面 的 值 OUT [Bij] ?不同 ， 因 此 我 
们 知道 在 第 一 轮 中 有 些 值 发 生 了 变化 (因此 会 继续 进行 第 二 次 循环 ) 


然后 我 们 考虑 B=B,， 并 计算 
IN [B,] i!=OUT LBi] IUOUT [B4] 9 
=111 000+000 0000=111 0000 


OUT[B,] =genrmU(IN[B2] -有 1p ) 
=000 1100 + (111 0000 -110 0001) =001 1100 


这 个 计算 过 程 在 图 9-15 中 做 了 概括 。 比 如 ， 在 第 一 趟 循环 的 最 后 ， 
OUT [B,] 1!=001 1100， 反 应 了 dy 和 ds 在 B, 中 生成 的 事实 ， 而 ds 到 达 了 
Bs, 的 开头 但 是 没有 在 Bo 中 被 杀 死 。 


请 注意 ， 在 第 二 轮 之 后 ，OUT [Bs] 的 值 有 所 改变 ， 反 映 了 de 也 到 
达 B, 的 开头 且 没 有 被 B, 杀 死 。 在 第 一 趟 中 我 们 没有 了 人 解 到 这 个 事实 ， 因 
为 从 d6 到 B2? 结 尾 的 路 径 〈 即 B3- B4-B2) 没有 在 一 趟 中 被 顺序 经 过 。 也 
就 是 说 ， 当 我 们 知道 de 到 达 B4 的 结尾 时 ， 我 们 已 经 在 第 一 趟 中 计算 了 
IN [B,] 和 OUT [B,] 。 


在 第 二 趟 之 后 ，OUT 集 合 中 的 所 有 值 都 没有 改变 。 因 此 ， 算 法 在 第 
三 趟 之 后 终止 。 此 时 ， 各 个 IN 和 OUT 的 值 如 图 9-15 中 最 后 两 列 所 示 。 








000 0 总 0 Ll Do mn 0000 | 111 Do 
000 0000 | 111 0000 | 001 1100 | 111 0111 | 001 1110 
000 0000 | 001 1100 | 000 1110 | 001 1110 | 000 1110 
000 0000 | 001 1110 | 001 0111 | 001 1110 | 001 0111 
000 0000 | 001 0111 | 001 0111 | 001 0111 | 001 0111 





































图 9-15 ”1N 和 0UT 的 计算 过 程 


9.2.5 ”活跃 变量 分 析 


有 些 代 码 改 进 转换 所 依赖 的 信息 是 按照 程序 控制 流 的 相反 方向 进行 
计算 的 ， 我 们 现在 将 要 研究 这 样 的 一 个 例子 。 在 活跃 变量 分 析 (live- 
variable analysis 〉 中 ， 我 们 希望 知道 对 于 变量 x 和 程序 点 p，x 在 点 p 上 的 
值 是 否 会 企 流 图 中 的 菜 条 从 点 p 出 发 的 路 径 中 使 用 。 如 果 是 ， 我 们 束 说 x 
在 p 上 活跃 ; 否则 就 说 x 在 p 上 是 死 的 。 


活跃 变量 信息 的 重要 用 途 之 一 是 为 基本 块 进行 寄存 器 分 配 。 在 8.6 
由 绍 了 这 个 问题 的 茶 些 方面 。 在 一 个 值 被 计算 并 保存 
到 一 个 寄存 器 $ 中 后 ， 它 很 可 能 会 在 基本 块 中 使 用 。 如 果 它 在 基本 块 的 结 
尼 处 是 死 的 就 不 必 在 络 尾 处 保存 这 个 值 。 另 外 ， 在 所 有 寄存 器 都 被 占 
用 时 ， 如 果 我 们 还 需 要 申请 一 个 寄存 器 的 话 ， 那么 应 该 考虑 使 用 一 个 存 
放 了 已 死 亡 的 值 的 寄存 器 ， 因 为 这 个 值 不 需要 保存 到 内 存 。 


这 里 我 们 直接 以 IN [LB] 和 OUT [B] 的 方式 定义 数据 流 方程 。 
IN LB] 和 OUT LBj] 分 别 表示 在 紧 靠 基本 块 B 之 前 和 紧 随 B 之 后 的 点 上 
的 活跃 变量 集合 。 这 些 方程 可 以 通过 以 下 的 方法 得 到 : 首先 定义 各 个 语 
句 的 传递 函数 ， 然 后 再 把 它们 组 合 起 来 得 到 一 个 基本 块 的 传递 函数 。 我 
们 给 出 下 面 的 定义 : 


1) defp 是 指 如 下 变量 的 集合 ， 这 些 变 量 在 B 中 的 定 值 ( 即 被 明确 地 
赋值 ) 先 于 任何 对 它们 的 使 用 。 

2) usep 是 指 如 下 变量 的 集合 ， 它 们 的 值 可 能 在 B 中 先 于 任何 对 它们 
的 定 值 被 使 用 。 




















四 ”比如 ， 图 9-13 中 的 基本 块 B, 一 定 使 用 了 i。 除 非 和 互 为 对 方 的 
别名 ， 人 否则 会 在 对 j 的 任何 重新 定 值 之 前 使 用 。 假 设 图 9-13 中 的 变量 之 
间 没 有 别名 关系 ， 那 么 usem = 1i, 几 。 画 外 ，B;? 显 然 对 i 和 j 定 值 。 假 设 
没有 别名 问题 ， 因 为 B, 在 定 值 之 前 使 用 了 i 和 j， 所 以 defp, =11。 


根据 这 些 定义 ，usep 中 的 任何 变量 都 必然 被 认为 在 基本 块 B 的 入 口 
处 活跃 ， 而 defp 中 的 变量 在 B 的 开头 一 定 是 死 的。 实际 上 ，defp 中 的 成 
员 “ 杀 死 * 了 某 个 变量 可 能 因 从 B 开 始 的 某 条 路 径 而 成 为 活跃 变量 的 任何 


机 会 。 
这 样 ， 把 def 和 use 与 未 知 的 IN 和 OUT 值 联系 起 来 的 方程 定义 如 下 : 
INTEXIT]= 0 
且 对 于 所 有 的 不 等 于 EXIT 的 基本 块 B 来 说 : 


IN LB]j =usepU (COUT [B] -defp) 


1 


第 一 个 方程 描述 了 边界 条 件 ， 即 在 程序 的 出 口 处 没有 变量 是 活跃 
的 。 第 二 个 方程 说 明 一 个 变量 要 在 进入 一 个 基本 块 时 活跃 ， 必 须 满 足下 
面 两 个 条 件 中 的 一 个 : 要 么 它 在 基本 块 中 被 重新 定 值 之 前 束 被 使 用 ;， 要 
么 它 在 离开 基本 块 时 活跃 且 在 基本 块 中 没有 对 它 重 新 定 值 。 第 三 个 方程 
A 
百 继 时 活跃 。 


应 该 注意 一 下 活跃 性 方程 和 到 达 定 值 方程 之 间 的 关系 : 


。 两 组 方程 都 以 并 集运 算 作为 交汇 运算 。 其 原因 是 在 各 个 数据 流 模式 
中 ， 我 们 都 治 着 路 径 传播 信息 ， 并 且 我 们 只 关心 是 人 否 存 在 任何 路 径 
人 而 不 是 关心 某 些 结论 是 否 在 所 有 的 路 径 上 都 

3 

。 但是， 活跃 性 的 信息 流 逆 回 过 历 ， 这 和 控制 流 的 方 加 相反。 其 中 的 
原因 是 在 这 个 问题 中 ， 我 们 试图 保证 在 一 个 程序 点 p 上 对 变量 x 的 使 
用 可 以 被 传递 到 在 菏 个 执行 路 径 中 p 之 前 的 所 有 程序 点 ， 这 样 我 们 


























才 知 道 在 前 面 的 这 些 点 上 x 的 值 会 被 使 用 。 

为 了 解雇 一 个 逆向 传播 的 数据 流 问 题 ， 我 们 对 IN LEXIT] “而 不 
是 OUT LENTRY] ) 进行 初始 化 。IN 和 OUT 集 合 的 角色 相互 对 调 了 ， 
use 和 def 分 别 替 代 了 gen 和 Kkill。 和 到 达 定 值 问 题 一 样 ， 活 跃 性 方程 的 解 
不 必 是 唯一 的 ， 且 我 们 希望 得 到 具有 最 小 活跃 变量 集合 的 解 。 解 方程 时 
使 用 的 算法 本 质 上 是 算法 9.11 的 逆向 传播 版 本 。 
活跃 变量 分 析 。 

输入 : 一 个 流 图 ， 其 中 每 个 基本 块 的 use 和 def 已 经 计算 出 来 。 


输出 : 该 流 图 的 各 个 基本 块 B 的 入 口 和 出 口 处 的 活跃 变量 集合 ， 即 
IN [Bj] 和 OUT [B] 。 


方法 : 执行 图 9-16 中 的 程序 。 








IN[EXIT] = 1; 
for ( 除 EXIT 之 外 的 每 个 基本 块 B) IN[B] = 销 
while ( 某 个 IN 值 发 生 了 改变 ) 

for ( 除 EXIT 之 外 的 每 个 基本 块 B) { 


OUTIB] = Usgpm ri ™NS); 
IN[B| = vsep U (OUT[B| — defp); 





图 9-16 计算 活跃 变量 的 迭代 算法 


9.2.6 ”可 用 表达 式 





如 果 从 流 图 入 口 结 扣 到 达 程 友 扣 p 的 每 条 路 人 径 都 对 表达 式 x+y 求 值 ， 
且 从 最 后 一 个 这 样 的 求 值 之 后 到 p 点 的 路 径 上 没有 再 次 对 x 或 y 赋 值 加 ， 
那么 x+y 在 点 p 上 可 用 (available) 。 对 于 可 用 表达 式 数据 流 模式 而 言 ， 
如 果 一 个 基本 块 对 x 或 y 赋 值 〈 或 可 能 对 它们 赋值 ) ， 并 且 之 后 没有 再 重 
新 计算 x+y， 我 们 就 说 该 基本 块 “ 杀 死 * 了 表达 式 xt+y。 如 末 一 个 基本 块 一 








定 对 x+y 求 值 ， 并 且 之 后 没有 再 对 x 或 y 定 值 ， 那 么 这 个 基本 块 生 成 表达 


式 X+y。 


请 注意 ,“ 杀 和 死 ?或 “生成 ”一 个 可 用 表达 式 的 概念 和 达到 定 值 中 的 概 
念 并 不 完全 相同 。 尽 管 如 此 ， 这 些 “ 杀 和 死 ? 或 “生成 的 概念 在 行为 上 和 到 
达 定 值 中 的 相应 概念 在 本 质 上 是 一 致 的 。 


可 用 表达 式 信 息 的 主要 用 途 是 寻找 全 局 公共 子 表达 式 。 比 如 ， 在 图 
9-17a 中 ， 如 果 4*i 在 基本 块 B; 的 入 口 点 可 用 ， 那 么 基本 块 B; 中 的 表达 式 
4*i 就 是 一 个 公共 子 表达 式 。 它 在 该 处 可 用 的 条 件 是 在 基本 块 B, 中 没有 
被 赋予 一 个 新 值 ， 或 者 像 图 9-17b 所 示 的 那样 在 B, 中 对 i 赋值 后 又 重新 计 
算 了 47i 











图 9-17 跨越 多 个 基本 块 的 潜在 的 公共 子 表达 式 


我 们 可 以 从 尖 到 尾 地 处 理 基 本 块 内 的 各 个 语句 ， 计 算 一 个 基本 块 内 
各 个 点 上 生成 的 表达 式 的 集合 。 在 基本 块 前 面 的 点 上 没有 任何 生成 的 表 
达 式 。 如 果 在 点 p 处 可 用 表达 式 的 集合 是 5， 而 q 是 p 之 后 的 点 ， 且 它们 之 
间 是 语句 x=y+z， 那么 通过 下 面 的 两 个 步 又 可 得 到 点 qg 上 的 可 用 表达 式 集 


1) 把 表达 式 y+z 添 加 到 S 中 。 
2) 从 S 中 删除 任何 涉及 变量 x 的 表达 式 。 





请 注意 ， 因 为 x 可 能 和 y 或 z 相 同 ， 所 以 上 面 的 步 又 必须 按照 正确 的 


顺序 执行 。 在 我 们 到 达 基 本 块 的 结尾 处 时 ，S 惑 是 该 基本 块 生 成 的 表达 
式 集合 。 而 被 杀 死 的 表达 式 的 集合 束 是 所 有 类 似 于 y+z 的 表达 式 ， 其 中 y 
或 z 在 基本 块 中 被 定 值 ， 并 且 这 个 基本 块 没 有 生成 y+z。 


考虑 图 9-18 中 的 四 个 语句 。 在 第 一 个 语句 之 后 btc 可 用 。 在 第 
二 个 培 句 之 后 a-d 变 得 可 用 ， 但 是 因为 b 被 重新 定 值 ，b+c 变 得 不 再 可 
用 。 第 三 个 语句 并 没有 使 b+c 可 用 ， 因 为 c 的 值 立 刻 就 被 改变 了 。 在 最 后 
一 个 语句 之 后 ， 因 为 d 的 值 已 经 改变 ，a-d 不 再 可 用 。 因 此 这 个 基本 块 没 
有 生成 任何 可 用 表达 式 ， 所 有 涉及 a、b、c、d 的 表达 式 都 被 杀 死 了 。 











图 9-18 可 用 表达 式 的 计算 


我 们 可 以 用 类 似 于 计算 到 达 定 值 的 方法 来 寻找 可 用 表达 式 。 假 设 U 

















是 所 有 出 现在 程序 中 一 个 或 多 个 语句 的 右 部 的 表达 式 的 全 集 。 对 于 每 个 
基本 块 B， 令 IN [Bj] 表示 在 B 的 开始 处 可 用 的 U 中 的 表达 式 的 集合 。 令 
OUT LBj」 表示 在 B 的 结尾 处 可 用 的 表达 式 集合 。 定 义 e_genp 为 B 生 成 的 
表达 式 的 集合 ， 而 e_killp 为 被 B 杀 死 的 U 中 的 表达 式 的 集合 。 请 注意 ， 
IN、OUT、e_gen 和 e_kill 都 可 以 使 用 位 向 量 表示 。 下 面 的 方程 给 出 了 未 
知 的 IN 和 OUT 值 之 间 ， 以 及 它们 和 已 知 量 e_gen 与 e_kill 之 间 的 关系 : 








OUT[ENTRY] = 0 
并 且 对 于 除 ENTRY 之 外 的 所 有 基本 块 B， 有 


OUT LB] =e genpU (IN [Bj| -e_killy) 


[| | tn 


上 面 的 方程 和 到 达 定 值 方程 组 看 起 来 几乎 一 样 。 和 到 达 定 值 类 似 ， 
这 个 方程 组 的 边界 条 件 也 是 OUT[ ENTRY] = 9， 这 是 因为 在 ENTRY 
的 出 口 处 没有 任何 可 用 表达 式 。 其 中 最 重要 的 不 同 之 处 在 于 这 个 方程 组 
的 交汇 运算 是 交集 运算 ， 而 不 是 并 集运 算 。 因 为 只 有 当 一 个 表达 式 在 一 
个 基本 块 的 所 有 前 驱 的 结尾 处 都 可 用 ， 它 才 会 在 该 基本 块 的 开头 可 用 ， 
因此 使 用 交集 运算 是 正确 的 。 相 反 ， 只 要 一 个 定 值 到 达 了 一 个 基本 块 的 
任何 一 个 前 驱 的 结尾 处 ， 它 束 到 达 了 该 基本 块 的 开头 ， 所 以 在 到 达 定 值 
方程 组 中 使 用 并 集运 算 作 为 交汇 运算 。 


使 用 n 而 不 是 U 使 得 可 用 表达 式 方程 组 的 表现 和 到 达 定 值 方 程 组 的 
表现 不 同 。 虽 然 两 组 方程 都 没有 唯一 解 ， 但 到 达 定 值 方 程 组 的 解 是 符 
合 “到 达 ” 的 定义 的 最 小 集合 。 在 求解 到 达 定 值 方 程 的 过 程 中 ， 我 们 首先 
假设 任何 地 方 都 没有 定 值 到 达 ， 然 后 逐渐 增 大 到 达 定 值 的 集合 ， 最 终 构 
建 得 到 该 解 。 在 这 个 方法 里 ， 除 非 找到 一 条 能 把 茶 个 定 值 d 传 播 到 东 个 
点 D 的 实际 路 径 ， 人 否则 我 们 从 来 不 假设 d 能 够 到 达 p。 相 反 ， 对 于 可 用 表 
达 式 方程 组 ， 我 们 希望 得 到 具有 最 大 可 用 表达 式 集合 的 解 。 因 此 ， 我 们 
首先 给 出 较 大 的 近似 值 ， 然 后 逐步 消减 。 


首先 ， 我 们 假设 “在 除了 入 口 基本 块 结尾 处 之 外 的 所 有 地 方 ， 所 有 
表达 式 〈 即 集合 U〉 都 是 可 用 的 "。 只 有 当 我 们 发 现 有 一 条 路 径 使 得 某 个 
表达 式 不 可 用 时 ， 我 们 才 删 除 这 个 表达 式 。 这 种 方法 看 起 来 不 是 那么 显 
而 易 见 ， 但 是 我 们 可 以 得 到 一 个 真正 的 可 用 表达 式 的 集合 。 在 处 理 可 用 
表达 式 时 ， 生 成 一 个 可 用 表达 式 的 精确 集合 的 子 集 是 保守 的 。 之 所 以 说 
使 用 子 集 是 保守 的 ， 是 因为 我 们 将 把 这 个 信息 用 于 把 一 个 可 用 表达 式 的 
计算 丛 换 为 之 前 计算 得 到 的 值 。 不 知道 一 个 表达 式 是 可 用 的 只 会 使 我 们 
失去 改进 代码 的 机 会 ， 而 把 一 个 不 可 用 的 表达 式 认为 可 用 则 会 使 我 们 改 
变 程序 的 计算 结 


我 们 将 把 注意 力 集中 在 图 9-19 中 的 基本 块 B, 上 ， 说 明 
OUT [Bs] 的 初始 近似 值 对 IN [B2] 的 影响 。 令 G 和 K 分 别 为 
e_geng, 和 e_kills, 的 缩写 。B2 的 数据 流 方程 为 















































图 9-19 ”将 0UT 集 合 初 始 化 为 四 局 限 性 太 大 
IN [B,] =OUT LBi|] NOUT LB,] 
OUT [B,] =GU (IN [B,] -K) 


令 H 和 0Oj 分 别 表 示 IN [B,] 和 OUT [B,] 的 第 j 次 循环 计算 得 到 的 近 

似 值 ， 这 些 方程 式 可 以 被 写成 下 列 的 迭代 计算 式 : 

II=OUT [Bi1」 nO 

Ojtl=GU (Lt1-K) 
从 0°=g 开 始 ， 我 们 得 到 = OUT[ Bj] No0°=@。 但 是 ， 如 果 我 们 从 
Oc=U 开 始 ， 那 么 我 们 得 到 II=OUT [Bi] nOY=OUT [Bj]」， 而 这 才 是 
我 们 应 该 得 到 的 值 。 直 观 地 讲 ， 以 O%=U 作 为 初始 值得 到 的 解 更 符合 我 
们 的 期 望 ， 因 为 这 个 解 正确 地 反映 了 下 面 的 事实 : 如 果 OUT LB1j」 中 的 
某 个 表达 式 没 有 被 Bs, 杀 死 ， 那 么 它 在 B, 的 结尾 处 可 用 。 
可 用 表达 式 。 


输入 : 一 个 流 图 ， 对 其 中 的 每 个 基本 块 B，e_kills 和 e_genp 的 值 已 
经 计算 得 到 。 流 图 的 初始 基本 块 是 B1。 








输出 : 在 流 图 的 各 个 基本 块 B 的 入 口 处 和 出 口 处 的 可 用 表达 式 集 
合 ， 即 IN [B] 和 OUT [B] 。 


方法 : 执行 图 9-20 中 的 算法 。 图 9-20 中 各 个 步骤 的 解释 类 似 于 图 9- 
14 的 算法 中 的 解释 。 


OUT[ENTRY] = 1; 
for ( 除 ENTRY 之 外 的 每 个 基本 块 B) ouT[B| =U; 
while ( 某 个 OUT 值 发 生 了 改变 ) 
for ( 除 ENTRY 之 外 的 每 个 基本 块 B ) { 
IN[B] QUT[Pl: 


= ip 是 BB 的 一 个 前 驱 
OUT[B| = ej-genp U (IN[B] ~ e_killp); 





图 9-20 计算 可 用 表达 式 的 移 代 算法 
9.2.7 小 结 


在 本 市 中 ， 我 们 讨论 了 数据 流 问 题 的 三 个 实例 : 到 达 定 值 、 活 跃 变 
量 和 可 用 表达 式 。 如 图 9-21 中 所 总 结 的 ， 每 个 问题 的 定义 都 是 通过 数据 
流 值 的 域 、 数 据 流 的 方 同 、 传 递 函 数 族 、 边 界 条 件 和 交汇 运算 来 定义 
的 。 我 们 一 般 用 和 表示 交汇 运算 。 


图 9-21 的 最 后 一 列 显示 了 迭代 算法 中 使 用 的 初始 值 。 我 们 选择 这 些 
值 的 目的 是 使 得 和 欠 代 算法 可 以 找到 方程 组 的 最 精确 解 。 严 格 地 讲 ， 这 个 
选择 并 不 是 数据 流 问 题 的 定义 的 一 部 分 ， 因 为 它 是 为 满足 迭代 算法 的 需 
要 而 人 工 给 出 的 产品 。 还 有 其 他 途径 可 以 解决 数据 流 问 题 。 比 如 ， 我 们 
己 经 看 到 了 如 何 把 一 个 基本 块 中 各 个 语句 的 传递 函数 组 合 起 来 得 到 该 基 
本 块 的 传递 函数 。 我 们 可 以 用 类 似 的 组 合 方法 来 计算 整个 过 程 的 传递 函 
数 ， 或 者 计算 从 过 程 的 入 口 处 到 各 个 程序 点 的 传递 函数 。 我 们 将 在 9.7 
节 中 讨论 这 类 方法 的 其 中 一 种 。 
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9.2.8 9.2 节 的 练习 


练习 9.2.1: 对 图 9-10 中 的 流 图 〈 见 9.1 节 的 练习 ) ， 计 算 下 列 值 : 
1) 每 个 基本 块 的 gen 和 Kill 集合 。 
2) 每 个 基本 块 的 IN 和 OUT 集 合 。 


练习 9.2.2: 对 图 9-10 的 流 图 ， 计 算 可 用 表达 式 问 题 中 的 e_gen、 
e_kil、IN 和 OUT 集 合 。 


练习 9.2.3: 对 图 9-10 的 流 图 ， 计 算 活 跃 变量 分 析 中 的 def、use、IN 
和 OUT 和 集合 。 


! 练习 9.2.4 四 :假设 V 是 复数 的 集合 。 下 面 的 哪个 运算 可 以 被 用 作 
V 上 的 一 个 半 格 结构 的 交汇 运算 ? 


1) 加 法 : (atib) 八 (c+id) = (atc) +i (b+d) 
2) 乘法 : (a+ib) 八 (c+id) = (ac-bd) +i (ad+bc) 


3) 按 分 量 求 最 小 : (atib) 八 (c+id) =min (a，c) +imin (b， 
d) 





4) 按 分 量 求 最 大 : (at+tib) 和 人 (c+id) =max (a, c) +imax (b， 
d) 


! 练习 9.2.5: 我 们 曾经 说 过 ， 如 果 一 个 基本 块 B 由 n 个 语句 组 成 ， 
并 且 第 i 个 语句 的 gen 集 合 和 kil 集 合 分 别 是 geni 和 killi， 那 么 基本 块 B 的 传 
递 函 数 的 gen 集 合 genp 和 kil 集 合 killp 可 以 由 下 面 的 公式 给 出 : 

killp=kill; U killy U .… U kill， 
genpB=geniU 〈genn 1-kill) U 〈genn_ >-kill 1-kill) U 
...U (gen1-kill>-kills-...-kill,) 

请 通过 对 n 的 归纳 来 证 明 这 个 说 法 。 

! 练习 9.2.6: 请 通过 对 算法 9.11 中 第 (4) 到 第 (6) 行 的 for 循 环 的 
和 妈 代 次 数 的 归纳 ， 证 明 IN 和 OUT 的 值 都 不 会 缩小 。 也 就 是 说 ， 一 但 某 个 
定 值 在 某 次 循环 的 时 候 被 放 到 其 中 的 一 个 集合 中 ， 它 诀 不 会 在 以 后 的 某 
次 循环 中 消失 。 

! 练习 9.2.7: 证 明 算 法 9.11 的 正确 性 ， 也 就 是 证 明 : 

1) 如 果 定 值 d 被 放 到 IN [Bj] 或 OUT [LB] 中 ， 那 么 相应 地 必然 有 
一 条 从 d 到 基本 块 B 的 开始 处 或 结尾 处 的 路 径 。 在 这 条 路 径 中 ， 由 d 定 值 
的 变量 不 会 被 重新 定 值 。 

2) 如 果 定 值 d 最 后 没有 被 放 到 IN [B] 或 OUT [B] 中， 那么 相应 
地 必然 没有 从 d 到 基本 块 B 的 开始 处 或 结尾 处 的 路 径 。 在 这 条 路 径 中 ， 由 
d 定 值 的 变量 不 会 被 重新 定 值 。 

! 练习 9.2.8: 证 明 有 关 算 法 9.14 的 下 列 性 质 : 

1) 各 个 IN 和 OUT 的 值 不 会 缩小 。 


2) 如 果 变 量 x 被 放 到 IN [Bj] 或 OUT [B] 中 ， 那 么 相应 地 有 一 条 
从 基本 块 B 的 开始 处 或 结尾 处 出 发 的 路 径 ， 在 这 条 路 径 上 x 可 能 被 使 用 。 


3) 如 果 变 量 x 没 有 被 放 到 IN [Bj] 或 OUT [B] 中 ， 那 么 相应 地 没 
从 基本 块 B 的 开始 处 或 结尾 处 出 发 的 路 径 ， 使 得 x 在 这 条 路 径 上 被 使 








为 什么 可 用 表达 式 算 法 是 正确 的 


我 们 需要 解释 一 下 为 什么 下 面 的 结论 成 立 ， 即 在 一 开始 的 时 候 把 
入 口 基本 块 之 外 的 其 他 所 有 基本 块 的 OUT 值 都 设置 为 U〈 即 所 有 表达 
式 的 集合 ) ， 最 终 仍 可 以 得 到 这 些 数据 流 方 程 的 保守 解 。 也 就 是 说 ， 
找到 的 可 用 表达 式 确实 都 是 可 用 的 。 第 一 ， 因 为 在 这 个 数据 流 模式 中 
的 交汇 运 算是 交集 运算 ， 任 何 发 现 x+y 在 菏 个 程序 点 上 不 可 用 的 理由 
都 会 在 流 图 中 治 着 所 有 可 能 的 路 径 同 前 传播 ， 直 到 x+y 被 重新 计算 并 
人 第 二 ， 只 有 两 个 理由 可 能 会 使 x+y 变 成 不 可 用 














1) 因为 x 或 y 在 基本 块 B 中 被 定 值 且 其 后 没有 计算 x+y， 因 此 x+y 
被 杀 死 。 在 这 种 情况 下 ， 我 们 第 一 次 应 用 传递 函数 钾 的 时 候 ，x+y 束 
会 从 OUT [Bj 中 被 删除 。 


2) 在 某 些 路 径 中 ，x+y 一 直 没 有 被 计算 。 因 为 x+y 肯 定 不 会 在 
OUT LENTRY] 中 ， 并 且 它 也 不 会 在 上 面 说 的 那 条 路 径 中 被 生成 。 
我 们 可 以 通过 对 路 径 长 度 的 归纳 来 证 明 x+y 最 终 会 从 这 条 路 径 的 所 有 
基本 块 的 IN 和 OUT 值 中 删除 。 


因此 ， 当 各 个 IN 和 OUT 值 不 再 改变 的 时 候 ， 图 9-20 中 提 到 的 迭代 
算法 给 出 的 解 将 只 包含 真正 的 可 用 表达 式 。 











! 练习 9.2.9: 证 明 有 关 算 法 9.17 的 下 列 特性 : 


1) 各 个 IN 和 OUT 的 值 决 不 会 增长 。 也 就 是 说 ， 这 些 集 合 在 后 来 的 
取 值 总 是 它们 前 面 取 值 的 子 集 ( 不 一 定 古 真子 集 ) 。 


2) 如 果 表 达 式 e 从 IN [Bj] 或 OUT [BJ] 中 被 删除 ， 那 么 必然 相应 
地 存在 一 条 从 流 图 入 口 到 达 B 的 开始 处 或 结尾 处 的 路 径 ， 要 么 e 在 这 条 路 
0 要 么 在 最 后 一 次 对 e 计 算 之 后 ，e 的 某 个 参数 被 重 
新 定 值 了 。 


3) 如 果 表 达 式 最 终 保留 在 IN [B] 或 OUT LB]」 中， 那么 相应 地 从 
流 图 入 口 到 基本 块 B 开 始 处 或 结尾 处 的 所 有 路 径 中 ，e 都 被 计算 ， 且 在 最 





后 一 次 计算 e 之 后 ，e 的 参数 都 没有 被 重新 定 值 。 


! 练习 9.2.10: 细心 的 读者 可 能 注意 到 在 算法 9.11 中 ， 我 们 可 以 把 
各 个 基本 块 B 的 genp 初 始 化 为 OUT [B] ， 这 样 可 以 减少 一 些 运行 时 
闻 。 类 似 地 ， 我 们 还 可 以 在 算法 9.14 中 把 usep 初 始 化 为 IN [B]」 。 我 们 
没有 这 么 做 的 原因 是 为 了 用 统一 的 方法 来 处 理 这 个 主题 。 我 们 将 在 算法 
9.25 中 再 次 看 到 这 一 点 。 但 是 ， 可 以 在 算法 9.17 中 把 e_genp 初 始 化 为 
OUT [Bj 吗 ? 为 什么 可 以 或 不 可 以 ? 


! 练习 9.2.11: 至 今 为 止 ， 我 们 的 数据 流 分 析 没 有 利用 条 件 跳 转 的 
语义 。 假 设 我 们 在 一 个 基本 块 的 结尾 处 找到 一 个 如 下 的 测试 : 


if. A LO BOL xs 
我 们 如 何 利 用 对 测试 表达 式 x<10 的 理解 来 改进 有 关 到 达 定 值 的 知识 ?请 


记 住 ， 在 这 里 “改进 ?意味 着 我 们 要 消除 茶 些 实际 上 永远 不 可 能 达到 某 个 
程序 点 的 到 达 定 值 。 





9.3 ”数据 流 分 析 基 础 


我 们 已 经 给 出 了 几 个 数据 流 抽 象 的 有 用 的 例子 ， 现 在 我 们 以 整体 的 
基本 问题 : 


1) 数据 流 分 析 中 用 到 的 迭代 算法 在 什么 情况 下 是 正确 的 ? 
2) 通过 友 代 算法 得 到 的 解 有 多 精确 ? 

3) 达 代 算法 收敛 吗 ? 

4) 这 些 方程 组 的 解 的 含义 是 什么 ? 


在 9.2 节 中 我 们 描述 到 达 定 值 问题 的 时 候 已 经 非 正 式 地 回答 了 上 面 

的 问题 。 对 于 后 来 的 几 个 数据 流 问 题 ， 我 们 并 没有 从 头 回答 同样 的 提 

问 ， 我 们 依靠 新 问题 和 已 讨论 的 问题 之 间 的 相似 之 处 来 解释 新 问题 。 本 
节 中 我 们 试图 做 到 一 荔 永 逸 。 针 对 一 大 类 的 数据 流 问 题 ， 我 们 给 出 一 个 
一 般 性 的 方法 来 严格 地 回答 这 些 问 题 。 我 们 首先 确定 数据 流 模式 的 预期 
特性 ， 并 证 明 这 些 特性 所 强 含 的 信息 ， 包 括 正确 性 、 精 确 性 、 数 据 流 算 
法 的 收敛 性 ， 以 及 方程 组 解 的 含义 。 这 样 ， 在 理解 老 算法 或 者 写 新 算法 
的 时 候 ， 我 们 只 需要 给 出 相应 的 数据 流 问题 定义 所 具有 的 特性 ， 束 可 以 
立刻 得 到 对 上 面 各 个 问题 的 回答 。 


对 一 类 模式 给 出 一 个 统一 的 理论 框架 也 有 实践 意义 。 这 个 框架 有 助 
于 我 们 在 软件 设计 中 确定 求解 算法 的 可 复 用 组 件 。 因 为 不 需要 对 类 似 的 
0 
减少 。 


一 个 数据 流 分 析 框 架 (D，V， 八 ，F) 由 下 列 元 素 组 成 


1) 一 个 数据 流 方向 D， 它 的 取 值 包括 FORWARD (前 问 ) 或 
BACKWARD (逆向 ) 。 

















2) 一 个 半 格 (定义 请 见 9.3.1 节 ) ， 它 包括 值 集 V 和 一 个 交汇 运算 


3) 一 个 从 V 到 V 的 传递 函数 族 F。 这 个 传递 函数 族 中 必须 包括 可 用 
于 刻 划 边界 条 件 的 函数 ， 即 作用 于 任何 数据 流 图 中 的 特殊 结 点 ENTRY 
和 EXIT 的 常 值 传递 函数 。 





9.3.1 半 格 





半 格 (semilattice〉 是 满足 下 列 条 件 的 一 个 集合 V 和 一 个 二 元 交汇 运 
算 八 。 对 于 V 中 的 所 有 x、y 和 和 z: 


1) XAx=Xx (交汇 运算 是 等 知 的 ) 。 

2) XAy=yAX 《交汇 运算 是 可 交换 的 ) 。 

3) x 人 (yAz) = (x 人 y) 人 z (交汇 运算 是 符合 结合 律 的 ) 。 
半 格 有 一 个 项 元 素 ， 表 示 为 了 ， 使 得 对 于 V 中 的 所 有 x， 人 x=X。 


闪 格 可 能 还 有 一 个 庆 元 素 ， 表 示 为 上 ， 使 得 对 于 V 中 的 所 有 
| 八 x=| 


偏 序 


正如 我 们 将 看 到 的 ， 一 个 半 格 的 交汇 运算 定义 了 值 域 上 的 一 个 偏 
序 。 假 设 < 为 V 上 的 一 个 关系 ， 如 果 对 于 V 上 的 所 有 x、y 和 z 都 有 : 


1) x<X《〈 该 俩 序 是 自 反 的 ) 。 
2) 如 果 x<y 且 y<x， 那 么 x=y《〈 该 偏 序 是 反对 称 的 ) 。 
3) 如 果 x<y 有 旦 y<z， 那 么 x<z (该 偏 序 是 传递 的 ) 


那么 < 就 是 一 个 偏 序 (partial order) 。 





二 元 组 (V，<) 被 称 为 偏 序 集 (partially ordered set，poset) 。 对 
于 一 个 偏 序 集 ， 定 义 如 下 的 关系 < 会 带 来 一 些 方便 : 


X<y 当 且 仅 当 (x<y) 且 xzy 


半 格 的 偏 序 


为 半 格 (V， 八 〉 定义 一 个 如 下 的 偏 序 < 会 有 所 帮助 。 对 于 V 中 的 所 
有 Xx 和 y， 我 们 定义 





X<y 当 且 仅 当 XAy=x 


因为 交汇 运算 入 是 等 景 的 、 可 交换 的 且 满 足 结合 律 ， 上 面 定义 的 序 < 就 
是 目 反 的 、 反 对 称 的 和 传递 的 。 下 面 来 说 明 其 中 的 原因 和: 


。 自 反 性 : 即 对 于 所 有 的 x，x<x。 因 为 交汇 运算 是 等 曲 的 ， 因 此 
X 人 X=X。 

。 反对 称 性 : 即 如 果 x<y 且 y<x， 那 么 x=y。 在 证 明 中 ，x<y 意 味 着 
x 八 y=x， 而 y<x 意 味 着 y 八 x=y。 根 据 八 的 可 交换 性 ，x= (x 八 y) 
= (y 人 x) =y。 

。 传递 性 : 即 如 果 x<y 且 y<z， 那 么 Xx<z。 证 明 如 下 : xs<y 且 ys<z 意 味 着 
Xx 八 y=x 且 y 八 z=y。 那 么 使 用 交汇 运算 的 结合 律 得 到 (x 八 z) 
=《 (x 人 y) 人 z) = (Xx 人 (YAz) ) = (x 八 y) =x。 因 为 已 经 证 明 
了 Xx 八 z=x， 我 们 有 x<z， 从 而 证 明了 传递 性 。 


在 9.2 节 的 例子 中 使 用 的 交汇 运算 是 集合 的 并 集 或 交集 运算 。 
它们 邵 是 等 暴 的 ， 可 交换 的 和 可 结合 的 。 对 于 集合 的 并 运算 ， 顶 元 素 是 
1， 而 底 元 素 是 全 集 U。 这 是 因为 对 于 U 的 任何 子 集 x 都 有 0 Ux=x 且 
UUx=U。 对 于 集合 的 交汇 运算 ， 丁 是 U 而 上 是 @。 半 格 的 值 域 V 束 是 全 
集 U 的 所 有 子 集 的 集合 。 这 个 集合 有 时 被 称 为 U 的 舌 集 (power set) ， 
并 用 20 表 示 。 


对 于 V 中 的 所 有 x 和 y，xUy=x 意 味 着 x 和 2y。 因 此 ， 并 集运 算 确 定 的 
偏 序 为 和 ， 即 集合 的 包含 关系 。 相 应 地 ， 集 合 的 交集 运算 确定 的 偏 序 古 
S， 即 集合 的 被 包含 关系 。 也 就 是 说 ， 对 于 由 交集 运算 所 确定 的 俩 序 而 
言 ， 元 系 较 少 的 集合 被 认为 是 比较 小 的 值 ， 但 是 对 于 由 并 集运 算 确 定 的 
偏 序 而 言 ， 元 系 较 多 的 集合 却 补 认为 是 较 小 的 。 一 个 较 大 的 集合 在 偏 序 
中 反而 较 小 是 违反 直觉 的 。 但 是 根据 前 面 的 定义 ， 这 种 情况 是 不 可 避免 
的 加 。 


9.2 节 中 讨论 过 ， 一 个 数据 流 方程 组 通 第 有 多 个 解 ， 而 (根据 偏 友 
关系 < 而 言 ) 最 大 的 解 是 最 精确 的 。 比 如 ， 在 到 达 定 值 问 题 中 ， 所 有 的 
数据 流 方 程 的 解 中 最 精确 的 解 是 共有 最 少 定 值 的 解 。 这 个 解 对 应 于 由 此 









































问题 的 交汇 运算 《〈 即 并 集运 算 ) 所 定义 的 偏 序 中 的 最 大 元 系 。 在 可 用 表 
达 式 中 ， 最 精确 的 解 是 具有 最 多 表达 式 的 解 。 同 样 ， 它 是 相对 于 由 交集 
运算 ( 即 此 问题 的 交汇 运算 ) 定义 的 偏 序 的 最 大 解 。 

最 大 下 界 

在 交汇 运算 和 它 确定 的 偏 序 之 间 还 有 一 个 有 用 的 关系 。 假 设 〈V， 
入 ) 是 一 个 半 格 。 域 元 素 x 和 y 的 最 大 下 界 (greatest lower bound，glb) 
是 一 个 满足 下 列 条 件 的 元 系 g: 


1) g<x 











2) g<y， 且 

3) 如 果 z 是 使 得 z<x 且 zs<y 成 立 的 元 素 ， 那 么 z<g。 

我 们 的 结论 是 ，x 和 y 的 交汇 运算 值 就 是 它们 的 唯一 最 大 下 界 。 为 了 
说 明 其 中 的 原因 ， 令 g=x 作 y。 可 以 观察 到 下 列 性 质 : 


。 因为 (x 八 y) 八 x=x 八 J， 所 以 g<x。 这 个 结论 的 证 明 只 涉及 结合 
性 、 可 交换 性 和 等 蜂 性 质 。 也 就 是 ， 


gAX= ( (xAMy) Mx) = (CXA (yAN\x) ) = (x 人 (xAN\y) ) 
= ( (xAx) My) = (xAMy) =g 














。 通过 类 似 的 论证 可 以 得 到 g<y。 

。 假设 z 是 任意 的 满足 zsx 和 zs<y 的 元 素 。 已 知 z<g， 因 此 除非 z 就 是 g， 
否则 它 不 是 zx 和 y 的 一 个 最 大 下 界 。 证 明 如 下 : 《〈zA 人 g) 
= (Z 人 (CxAy) ) =( (zAx) 人 Ay) 。 因 为 zsx， 我 们 知道 
(ZAX) Sz, 因此 (ZAg》= 《ZANY) a 因为 2<y3 -我 们 知道 
z 八 y=z， 因 此 z 八 g=z。 我 们 已 经 证 明了 z<g， 并 且 得 出 结论 g=x 八 y 
是 x 和 y 的 唯一 最 大 下 界 。 





并 函数 、 最 小 上 界 和 格 


和 一 个 偏 序 集合 中 的 元 素 的 最 大 下 界 操 作对 应 ， 我 们 可 以 把 元 素 
x 和 和 y 的 最 小 上 界 (least upper bound，lub) 定义 为 满足 下 列 条 件 的 元 





素 b: xs<b 且 y<sb， 并 且 对 于 任何 满足 xsz 和 ysz 的 元 素 z 都 有 b<z。 可 以 
证 明 ， 如 有 果 存 在 最 小 上 界 ， 那 么 最 多 只 有 一 个 最 小 上 界 。 


在 一 个 真 的 格 中 有 两 个 域 元 素 上 的 运算 : 我 们 已 经 看 到 的 交汇 运 
算 入 ， 以 及 记 为 V 的 并 函数 。 并 《join) 函数 给 出 了 两 个 元 素 的 最 小 











上 界 。 因 此 格 中 的 元 素 总 是 存在 最 小 上 界 。 至 今 为 止 我 们 一 直 讨 论 的 
是 “ 半 个 ” 格 ， 即 只 存在 交汇 运算 和 并 函数 之 一 。 也 惑 是 说 ， 我 们 的 半 
格 是 一 个 交 半 格 (meet semilattice) 。 人 们 也 可 以 讨论 并 半 格 (join 

semilattice》， 即 只 有 并 函数 的 半 格 。 实 际 上 有 些 程序 分 析 的 文献 就 

使 用 并 半 格 的 概念 。 因 为 传统 的 数据 流 文献 讲 的 是 交 半 格 ， 所 以 在 本 
书 中 我 们 也 使 用 交 半 格 。 





格 图 


把 域 V 画 成 一 个 格 图 对 我 们 会 有 所 帮助 。 格 图 的 结 点 是 V 的 元 素 ， 
而 它 的 边 是 同 下 的 ， 即 如 果 y<x， 那 么 从 x 到 y 有 一 个 边 。 比 如 ， 图 9-22 
给 出 了 一 个 到 达 定 值 数据 流 模式 的 集合 V。 其 中 有 三 个 定 值 : du、d 和 
d3。 因 为 半 格 中 的 偏 序 关 系 < 是 2， 从 这 三 个 定 值 的 集合 的 子 集 到 其 所 
有 超 集 有 一 个 向 下 的 边 。 因 为 < 是 传递 的 ， 如 果 图 中 有 一 条 从 x 到 y 的 路 
径 ， 我 们 可 以 按照 惯例 省 略 从 x 到 y 的 边 。 因 此 ， 虽 然 在 这 个 例子 中 { 
di，d，d3} < { di} ， 我 们 并 没有 国 出 这 条 边 ， 因 为 这 个 边 可 以 用 经 
过 { dj，d} 的 路 径 来 表示 。 


{} (1T) 


| 二 | 
{a 0 本 的 


Df 


(二, 大 (|) 
图 9-22 定 值 的 子 集 的 格 


有 一 点 也 很 有 用 ， 即 我 们 可 以 从 这 样 的 图 中 读 出 交汇 值 。 因 为 x 八 y 
就 是 它们 的 最 大 下 界 ， 因 此 这 个 值 总 是 最 高 的 、 从 x 和 y 都 有 疝 下 的 路 径 
到 达 的 元 素 z。 比 如 ， 如 果 x 是 {di1} 而 y 是 《dz } ， 那 么 图 9-22 中 的 z 就 
是 {di，d} 。 这 是 正确 的 ， 因 为 这 里 的 交汇 运算 是 并 集运 算 。 顶 元 系 
将 出 现在 格 图 的 顶部 ， 也 就 是 说 ， 从 丁 到 图 中 的 每 个 元 素 都 有 一 条 问 
由 
中 这 二 


乘积 格 


图 9-22 中 只 涉及 了 三 个 定 值 ， 而 一 个 典型 程序 的 格 图 可 能 相当 大 。 
数据 流 值 的 集合 是 定 值 的 宫 集 。 因 此 如 果 一 个 程序 中 有 n 个 定 值 ， 则 该 
程序 的 数据 流 值 集合 包含 2 个 元 素 。 但 是 ， 一 个 定 值 是 否 到 达 某 个 程序 
点 和 其 他 定 值 的 可 达 性 无 关 。 我 们 因此 可 以 用 “乘积 格 ” 的 方式 来 表示 定 
值 的 格 包 。 这 个 乘积 格 由 各 个 定 值 对 应 的 简单 格 构造 得 到 。 也 就 是 说 ， 
如 果 程 序 中 只 有 一 个 定 值 4， 那么 相应 的 格 将 只 包括 两 个 元 素 : 空 集 
{} ( 它 是 顶 元 系 ) 以 及 {d} “〈 筷 是 底 元 素 ) 。 


严格 地 讲 ， 我 们 按照 下 面 的 方式 构造 乘积 格 。 假 设 {A， 八 A} 和 
{B， 八 p} 是 两 个 〈 半 ) 格 。 这 两 个 格 的 乘积 格 定义 如 下 : 


























1) 乘积 格 的 域 是 AxB。 


2) 乘积 格 的 交汇 运算 入 定义 如 下 : 如 果 (a，b) 和 (a ，b') 是 乘 
积 格 域 中 的 元 素 ， 那 么 


(a, b) 和 人 (a', b') = (aAAa，bA 人 pb') (9.19) 
乘积 格 的 偏 序 可 以 很 简单 地 用 A 的 偏 序 < 和 B 的 偏 序 <p 来 表示 : 
(ay b) < (a'"，b') 当 且 仅 当 a<Aa' 且 bxpb' (9.20) 


人 
页 


. 
~ 人 . 





(a, b) 人 (a', b') = (aA 人 人 Aa，bA 人 pb') 


我 们 可 能 会 问 在 什么 情 况 下 (a 人 xay bAsb' 六 全 -CB5》.? 当 县 仪 当 
a 八 Aa=a 且 b 八 pb'=b 的 时 候 这 个 等 式 成 立 。 而 这 两 个 条 件 和 a<Aa' 和 b<pb 
是 一 回 事 。 


格 的 乘积 是 一 个 满足 结合 律 的 运算 ， 因 此 我 们 可 以 证 明 规则 
(9.19) 和 〈9.20) 可 以 被 扩展 到 任意 多 个 格 。 也 就 是 说 ， 如 果 我 们 有 
格 CAj，Aj) (i=1，2，...，k) ， 那 么 这 k 个 格 按照 这 个 顺序 的 乘积 的 
域 为 A1xA,x 。 xAl, 其 交汇 运算 定义 为 : 








(a1; dp; 7009 Bp) 人 (bi，b>，..…，bl) = 《ail 人 1bl，ap 人 2b，.….， 
ak 人 kbrk) 
而 偏 序 定义 为 
(人 仪 当 对 于 所 有 的 i》 -<bis 
半 格 的 高 度 


通过 研究 一 个 数据 流 问 题 中 的 半 格 的 “高 度 ”， 我 们 可 以 知道 一 些 天 
于 数据 流 分 析 算 法 收敛 速度 的 信息 。 偏 序 集 (V，<) 的 一 个 上 升 链 
(ascending chain ) 是 一 个 满足 xj<xo<...<x' 的 序列 。 一 个 半 格 的 高 度 


Cheight) 是 所 有 上 升 链 中 的 < 关系 个 数 的 最 大 值 。 也 束 是 说 ， 高 度 比 链 
人 
度 是 n。 


如 末 一 个 半 格 具有 有 穷 的 高 度 ， 束 可 以 比较 容易 地 证 明 相 应 的 迭代 
数据 流 算法 的 收 伍 性 。 显 然 ， 一 个 由 有 穷 值 集 组 成 的 格 具有 有 穷 的 融 
度 ; 一 个 具有 无 穷 多 个 值 的 格 也 可 能 具有 有 穷 的 口上 度 。 在 常量 传播 算法 
0 我 们 将 在 9.4 市 中 详细 地 说 明 这 个 例 


























9.3.2 ”传递 函数 


一 个 数据 流 框 架 中 的 传递 函数 族 F: VV 具有 下 列 性 质 : 
1) F 有 一 个 单元 函数 1， 使 得 对 于 V 中 的 所 有 Xx, I (x) =X。 


2) F 对 函数 组 合 运 算 封 闭 。 也 就 是 说 ， 对 于 F 中 的 任意 函数 fg， 
定义 为 h (x) =g (f (x) ) 的 函数 h 也 在 F 中 。 


在 到 达 定 值 中 ，F 有 单元 函数 ， 即 gen 和 kil 痢 是 空 集 的 传递 函 
。 对 函数 组 合 的 封闭 性 实际 上 已 经 在 9.2.4 节 中 得 到 证 明 ， 我 们 在 这 里 
简单 地 重复 一 下 证 明 过 程 。 假 设 我 们 具有 两 个 函数 


f (Xx) =G1U (x-K1) 和 了 f (xX) =G>U (x-K,) 








FG COU Ck 
根据 代数 规则 ， 上 了 式 的 右 部 和 下 式 等 价 : 
《ee 
如 果 我 们 令 K=Ki UK,，G=G2U (G1-K,) ， 我 们 就 证 明了 fi 和 f, 的 


组 合 f (x)〉 =GU (x-K) 的 形式 表明 它 是 F 的 成 员 。 如 果 我 们 考虑 可 用 
表达 式 的 问题 ， 上 面 用 于 到 达 定 值 的 证 明 也 同样 可 以 证 明 F 具 有 单元 函 





数 并 且 对 函数 组 合 运算 封闭 。 
单调 的 框架 


要 使 得 数据 流 分 析 问 题 的 迭代 算法 能 够 完成 任务 ， 我 们 还 要 求 数据 
觉 框架 再 满足 一 个 条 件 。 对 于 一 个 框架 ， 如 果 框 架 中 的 所 有 传递 函数 部 
是 单调 的 ， 那 么 我 们 就 说 这 个 框架 是 蛙 调 的 。F 中 的 传递 函数 f 古 单调 函 
数 的 条 件 是 对 于 域 V 中 的 任意 两 个 元 素 ， 如 果 第 一 个 元 素 大 于 第 二 个 元 
素 ， 那 么 f 作 用 于 第 一 个 元 素 的 结果 也 大 于 它 作 用 于 第 二 元 素 所 得 到 的 


结 末 。 


正式 的 定义 如 下 ， 一 个 数据 流 框架 (D，F，V， 人 和 人 A) 是 单调 的 
(monotone )， 如 果 


对 于 所 有 的 V 中 的 x 和 y 以 及 F 中 的 f{，x<y 纺 含 f (x) <f (y) “(9.22) 
单调 性 可 以 被 等 价 地 定义 为 


对 于 所 有 的 V 中 的 x 和 y 以 及 F 中 的 f, f (x 和 人 y) <f (x) Af (y) 
(9.23) 




















式 《9.23) 说 明 ， 如 条 我 们 对 两 个 值 应 用 交汇 运算 再 应 用 函数 f， 那 
么 得 到 的 结果 绝对 不 会 大 于 首先 将 { 分 别 应 用 于 两 个 值 ， 然 后 再 对 结果 
应 用 交汇 运算 而 得 到 的 值 。 这 两 个 关于 单调 的 定义 看 起 来 很 不 相同 ， 它 
们 各 有 各 的 用 处 。 我 们 会 发 现 这 两 个 定义 分 别 适用 于 不 同 的 环境 。 稍 后 
我 们 将 给 出 一 个 简略 的 证 明 ， 表 明 它 们 确实 是 等 价 的 。 


我 们 将 首先 假设 式 (9.22) 成 立 并 证 明 式 (9.23) 成 立 。 因 为 xAy 
是 x 和 y 的 最 大 下 界 ， 我 们 知道 


xANy<xHxANy<y 





因此 由 式 〈9.22) 可知: 
f (xAy) <f (x) Hf (xAy) <f (y) 


因为 f(x) Af (y) 是 f (x) 和 f(y) 的 最 大 下 界 ， 我 们 证 明了 
(9.23) 。 


反 过 来 ， 我 们 假设 式 〈9.23) 成 立 并 证 明 式 〈9.22) 。 我 们 假设 x<y 
并 使 用 式 (9.23) 来 得 到 f (x) <f (y) 的 结论 ， 从 而 证 明 式 (9.22) 。 
式 (9.23) 告诉 我 们 
f (XAy) <f (x) Af (y) 


(0 根据 定义 有 x 八 y=x。 因 此 ， 式 (9.23) 
明 


f (x) <f (x) 人 fy) 


因为 f (x) 和 Af Cy) 是 f (x)〉 和 f(y) 的 最 大 下 界 ， 我 们 得 到 f (x) 
Af (y) <f (y) 。 这 样 


f (x) <f (x) AMf (y) <f (y) 
因此 式 〈9.23) 蕴含 式 (9.22) 。 
可 分 配 的 框架 
数据 流 分 析 框 架 经 常会 遵守 一 个 比 式 〈9.23) 更 强 的 条 件 ， 我 们 把 
个 条 件 称 为 可 分 配 条 件 (distributivity condition) ， 即 对 于 V 中 的 所 有 
0 有 
f (xAy) =f (x) AMf (y) 


当然 ， 如 果 a=b， 那 么 根据 等 共性 有 a 八 b=a， 因 此 a<sb。 这 样 ， 可 分 配 性 
缠 含 了 单调 性 ， 但 是 反 过 来 并 不 成 立 。 


gr 令 y 和 z 为 到 达 定 值 框架 下 的 定 值 集合 。 令 f 是 一 个 定义 为 
GU (x-K) 的 函数 ， 其 中 G 和 K 为 某 个 定 值 的 集合 。 通 过 检验 下 
面 的 等 











GU (C (yUz) -K) = (GU (y-K) ) U (GU (z-K) ) 
我 们 融 可 以 证 明 到 达 定 值 的 框架 满足 可 分 配 性 条 件 。 


里 然 上 面 的 等 式 看 起 来 很 难 ， 但 我 们 可 以 首先 考虑 在 G 中 的 那些 定 
值 。 这 些 定 值 一 定 都 在 上 面 等 式 的 左 部 和 右 部 所 定义 的 两 个 集合 中 。 








此 我 们 只 需要 考虑 不 在 G 中 的 定 值 的 集合 。 在 这 种 情况 下 ， 我 们 可 以 把 
G 从 所 有 的 地 方 删除 ， 并 验证 等 式 


(yUz) -K= (y-K) U (z-K) 


通过 Venn 几 就 可 以 很 容易 地 验证 这 个 等 式 。 
9.3.3 ”通用 框架 的 迭代 算法 


我 们 可 以 对 算法 9.11 进 行 推广 ， 使 之 能 够 处 理 各 种 数据 流 问题 。 
通用 数据 流 框架 的 迭代 解法 。 
输入 : 一 个 由 下 列 部 分 组 成 的 数据 流 框架 : 


1) 一 个 数据 流 图 ， 它 有 两 个 被 特别 标记 为 ENTRY 和 EXIT 的 结 点 。 
2) 数据 流 的 方向 D。 
ER 


4) 二 个 交汇 运算 作 s 
一 个 函数 的 集合 FE， 其 中 全 表示 基本 块 B 的 传递 函数 。 


6 ) V 中 的 一 个 常量 值 YrNTRY 或 者 vpxrT。 它们 分 别 表示 前 回 和 逆 回 
框架 的 边界 条 件 。 


输出 : 上 述 数 据 流 图 中 各 个 基本 块 B 的 IN LB]」 和 OUT LBj 的 值 。 
这 些 值 在 V 中 。 


方法 : 解决 前 向 和 闭 向 数据 流 问题 的 算法 分 别 显 示 在 图 9-23a 和 图 9- 
23b 中 。 和 9.2 节 中 的 各 个 数据 流 迭 代 算 法 类 似 ， 我 们 通过 不 断 近 似 逼 近 
的 方式 来 计算 各 个 基本 块 的 IN 值 和 OUT 值 。 


Vt 


5 











1) tig VENTRY 1) IN[EXIT] = 
2) for ( 除 ENTRY 之 下 前 每 个 基本 块 B) 0UT[B] = T; 2) for ( 除 EXT 之 外 的 每 个 基本 所 B)INB]=T; 
发 





3) while ( 某 个 OUT 值 发生 了 改变 ) 3) while (其 个 IN 值 发生 了 改 攻 

4 ( 附 ENTRY 之 外 的 每 个 基本 块 B) { 4 or ( 除 EXIT 之 外 的 每 个 基本 块 B ) { 
5 IN[B] = A ppt rim OUTIP]; 5) T[B] = Nsgpt ta IN[S]; 
6) OUTIB] = fs(IN[B)); 6) = fs(OUTIB)); 











a) 前 向 数据 流 问题 的 迭代 算法 b) 逆向 数据 流 问题 的 选 代 算 法 
图 9-23 ”数据 流 问题 迭代 算法 的 前 向 和 逆向 的 版 本 


也 可 以 改写 算法 9.25， 使 得 它 把 实现 交汇 运算 的 函数 作为 一 个 参 
数 ， 同 时 也 把 实现 各 基本 块 的 传递 函数 的 函数 作为 参数 。 流 图 本 里 和 边 
界 值 也 都 作为 参数 。 使 用 这 种 方法 ， 编 译 需 的 实现 者 就 可 以 避免 为 编译 
器 优化 阶段 所 使 用 的 每 个 数据 流 框 淤 都 从 头 编写 基本 迭代 算法 的 代码 。 


我 们 可 以 使 用 至 今 为 止 讨论 的 抽象 框架 来 证 明 该 迭代 算法 的 一 组 有 
用 的 性 质 ; 


1) 如 果 算 法 9.25 收 化 ， 其 结果 束 是 数据 流 方程 组 的 一 个 解 。 


2) 如 末 框 架 是 单调 的 ， 那 么 找到 的 解 就 是 数据 流 方 程 组 的 最 大 不 
动 点 (Maximum FixedPoint，MFP) 。 一 个 最 大 不 动 点 是 一 个 具有 下 面 
性 质 的 解 ， 在 任何 其 他 解 中 ，IN [B] 和 OUT [B] 的 值 和 MFP 中 对 应 
的 值 之 间 具 有 < 关系 。 


如 果 框 架 的 半 格 是 单调 的 ， 且 高 度 有 穷 ， 那 么 这 个 欠 代 算法 必 


论证 这 些 论点 时 ， 我 们 首先 假设 框架 是 前 向 的 。 对 于 逆 回 框架 的 论 
证 实质 上 是 一 样 的 。 第 一 个 性 质 很 容易 证 明 。 如 果 在 while 循 环 结束 的 
时 候 方 程 组 没有 被 满足 ， 那 么 各 个 OUT 值 (对 前 向 框架 ) 或 IN 值 〈 对 逆 
问 框 架 ) 中 至 少 有 一 个 值 改 变 了 ， 我 们 必须 再 次 运行 该 循环 。 


为 了 证 明 第 二 个 性 质 ， 我 们 首先 证 明 ， 在 运行 算法 迭代 时 任意 的 基 
本 块 B 的 IN [B] 和 OUT [LB]」 所 取 的 值 只 能 (相对 于 格 中 的 < 关系 而 
言 ) 下降 。 这 个 性 质 可 以 通过 归纳 方法 证 明 。 


归纳 基础 : A [LB] 和 OUT [Bj] 的 值 在 第 
一 个 迭代 之 后 不 大 于 初始 值 。 这 个 论断 的 正确 性 是 显而易见 的 ， 因 为 所 
有 不 等 于 ENTRY 的 基本 块 B 的 IN LB]」 和 OUT LBj] 都 被 初始 化 为 T。 














归纳 步骤 : 假设 经 过 k 次 迭代 之 后 ， 那 些 值 都 不 大 于 第 〈k-1) 次 迭 
代 后 的 值 ， 我 们 要 证 明 第 k+1 次 欠 代 和 第 k 次 欠 代 相 比 同样 如 此 。 图 9- 
23a 的 第 5 行 是 : 


IN[B] = 人 ooT[P] 


忆 是 有 8 的 一 个 前 驱 


我 们 用 IN [Bj] i 和 OUT [B] 标记 IN [B] 和 OUT [B] 在 第 i 次 迭代 之 
后 的 值 。 假 设 OUT [P] k<OUT [P] “1!， 由 交汇 运算 的 性 质 可 知 
IN [Bj] Kt1<IN [B]*。 接 下 来 ,第 (6) 行 说 


OUT [Bj] =fs (IN [Bj] ) 
因为 IN [Bj] Kt1<IN [Bj] *， 由 单调 性 可 知 OUT [Bj] Ki1<OUT [Bj] *。 


请 注意 ， 每 一 个 IN LB」 和 OUT [Bj] 值 的 改变 都 必须 满足 上 述 等 
式 。 交 汇 运算 返回 的 是 其 输入 的 最 大 下 界 ， 且 传递 函数 返回 的 值 是 和 基 
本 块 本 号 及 它 的 给 定 输入 一 致 的 唯一 解 。 因 此 ， 如 果 该 欠 代 算法 终止 ， 
其 结果 值 至 少 和 任何 其 他 解 的 相应 值 一 样 大 。 也 就 是 说 ， 算 法 9.25 的 结 
果 是 数据 流 方程 式 的 最 大 不 动 点 。 


最 后 考虑 第 三 点 ， 即 数据 流 框 如 具有 有 穷 高 度 的 情况 。 因 为 每 个 
IN [Bj」 和 OUT [Bj 的 值 在 每 次 被 改变 时 都 会 减 小 ， 而 程序 在 菜 一 轮 
循环 中 没有 值 改 变 时 就 会 停止 ， 因 此 算法 的 迭代 次 数 不 会 大 于 框架 高 度 
和 演 图 结 扣 个 数 的 乘积 ， 因 此 算法 必然 终止 。 











9.3.4 数据 流 解 的 含义 





现在 我 们 知道 使 用 前 面 的 迭代 算法 得 到 的 解 是 最 大 不 动 点 ， 但 从 程 
序 语义 的 角度 来 看 ， 这 个 结果 又 代表 了 什么 呢 ? 为 了 理解 一 个 数据 流 杠 
架 (D，F,，V， 人 和 A) 的 解 ， 我 们 首先 描述 一 下 一 个 框架 的 理想 解 应 该 是 
什么 样子 。 我 们 将 给 出 下 面 的 性 质 ， 即 一 般 情况 下 不 能 得 到 理想 解 ， 但 
古 算法 9.25 保 守 地 给 出 了 理想 解 的 近似 值 。 


理想 解 


不 失 一 般 性 ， 我 们 假设 现在 感 兴趣 的 数据 流 框 架 是 一 个 前 问 的 数据 
流 问 题 。 考 虑 一 个 基本 块 B 的 入 口 点 。 求 理想 解 的 第 一 步 是 要 找到 从 程 
序 入 口 到 达 B 的 开头 的 所 有 可 能 的 执行 路 径 。 只 有 当 程 序 的 茶 次 执行 能 
够 准确 地 沿 着 某 条 路 径 进 行 ， 这 条 路 径 才 被 称 为 “可 能 的 "。 然 后 ， 理 想 
的 求解 方法 将 计算 每 个 可 能 路 人 径 尾 端的 数据 流 值 ， 并 对 这 些 数 据 流 值 应 
用 交汇 运算 得 到 它们 的 最 大 下 者。 那么， 程序 的 任何 执行 都 不 可 能 在 该 
程序 点 上 产生 一 个 更 小 的 数据 流 值 。 另 外 ， 这 个 界限 还 是 紧 致 的 ， 根据 
流 图 中 到 达 B 的 所 有 可 能 路 径 计 算得 到 的 数据 流 值 的 集合 的 最 大 下 界 不 
可 能 变 得 更 大 。 


我 们 现在 更 为 正式 地 定义 理想 解 。 对 于 一 个 流 图 中 的 每 个 基本 块 
B， 令 分 是 B 的 传递 函数 。 考 虑 任意 从 初始 结 点 ENTRY 到 某 个 基本 块 Bl 
中 的 路 径 











P=ENTRY -Bi —B, 一 。.。 —» Bl._1 — Bx 


程序 的 路 径 可 能 包含 环 ， 因 此 一 个 基本 块 可 能 在 路 径 P 中 多 次 出 现 。 害 
义 P 的 传递 逊 数 亿 为 万 ,fs,，…,f8, ,的 函数 组 合 的 结果 。 请 注意 ，/fa, 没 
有 参与 组 合 运算 ， 这 表明 这 条 路 径 只 到 达 Bk 的 开头 ， 而 不 是 其 结尾 。 执 
行 这 条 路 径 而 创建 的 数据 流 值 就 是 人 (VENTRY) ; 其 中 vpNrRy 古 代表 初 
始 结 点 ENTRY 的 常 值 传递 函数 的 结果 。 因 此 ， 基 本 块 B 的 理想 结果 是 








IDEAL[ B] = 人 JP(CZFNTRY ) 


P 是 从 ETNRY 到 B 的 一 个 可 能 路 径 
按照 问题 中 数据 流 框架 的 格 理论 偏 序 关系 <， 我 们 有 下 面 的 结论 ; 


。 任何 比 IDEAL 更 大 的 答案 都 是 错误 的 。 
。 任何 小 于 或 者 等 于 这 个 理想 值 的 值 都 是 保守 的 ， 即 安全 的 。 


直观 地 讲 ， 越 接近 理想 值 的 值 就 越 精确 Dol。 下 面 说 明 为 什么 方程 
的 解 和 理想 值 之 间 必 须 具 有 < 关系 。 请 注意 ， 对 于 任何 基本 块 ， 只 要 名 
略 程序 可 能 执行 的 某 些 路 径 就 可 能 得 到 该 基本 块 的 大 于 IDEAL 的 解 。 但 
是 ， 如 果 我 们 基于 这 样 的 较 大 解 来 改进 代码 ， 就 不 能 保证 这 些 被 忽略 的 
路 径 中 一 定 不 会 有 某 些 执行 效果 使 得 我 们 的 代码 改进 不 正确 。 反 过 来 ， 
任何 小 于 IDEAL 的 值 都 可 以 被 看 作 是 包含 了 某 些 不 必要 的 路 径 ， 它 们 可 
能 是 流 图 中 不 存在 的 路 径 ， 也 可 能 流 图 中 存在 此 路 径 但 程序 却 不 会 按 这 











条 路 径 执 行 。 这 些 较 小 的 解 将 只 允许 进行 对 程序 的 所 有 可 能 执行 都 正确 
的 转换 ， 但 是 它们 会 禁止 IDEAL 值 原本 允许 的 某 些 转换 。 


基于 路 径 交 汇 运 算 的 解 


但 是 正如 9.1 节 中 所 讨论 的 ， 寻 找 所 有 可 能 的 执行 路 径 是 一 个 不 可 
判定 问题 。 因 此 ， 我 们 必须 使 用 近似 方法 。 在 数据 流 抽象 中 ， 假 设 流 疼 
中 的 每 条 路 径 都 可 能 被 执行 。 因 此 ， 我 们 可 以 用 如 下 方法 定义 B 的 基于 
路 径 交 汇 运 算 的 解 。 








MO 8 时 网 人 “ENTRTY ) 

请 注意 ， 和 前 面 讨论 IDEAL 时 一 样 ，MOP [Bj 解 给 出 的 是 前 向 数据 流 
框架 中 IN [Bj 的 值 。 如 果 我 们 要 考虑 反 回 数据 流 框架 ， 那 么 我 们 会 把 
MOP [B] 当 作 OUT [Bj 的 值 。 


在 MOP 解 中 考虑 的 路 径 是 所 有 可 能 被 执行 路 径 的 超 集 。 因 此 ， 
MOP 解 中 交汇 运算 的 输入 不 仅 包 括 所 有 可 执行 路 径 的 数据 流 值 ， 还 包括 
了 一 些 和 不 可 能 执行 路 径 相 关 的 数据 流 值 。 把 理想 解 和 一 些 其 他 的 值 进 
行 交 汇 运算 不 可 能 创造 出 一 个 大 于 理想 值 的 解 。 因 此 ， 对 所 有 的 B， 我 
们 有 MOP [B] <IDEAL [B] 。 我 们 简单 地 说 MOP<IDEAL。 


最 大 不 动 点 和 MOP 解 


请 注意 ， 如 果 流 图 包含 环 ， 那 么 在 MOP 解 中 需要 考虑 的 路 径 数 量 仍 
然 是 无 界 的 。 因 此 ， 不 能 直接 由 MOP 的 定义 得 到 算法 。 当 然 ， 迭 代 算 法 
也 不 是 先 找 到 所 有 到 达 一 个 基本 块 的 路 径 ， 然 后 再 应 用 交汇 运算 的 ， 而 
是 采用 如 下 方法 : 


1) 这 个 迭代 算法 访问 各 个 基本 块 ， 其 访问 的 顺序 并 不 一 定 是 执行 
的 顺序 。 

2) 在 每 个 路 径 交 汇 点 ， 算 法 对 当前 已 经 得 到 的 数据 流 值 应 用 交汇 
运算 。 其 中 一 部 分 被 使 用 的 值 可 能 是 在 初始 化 过 程 中 人 为 加 入 的 ， 并 不 
表示 从 程序 开始 的 执行 结果 。 


那么 ，MOP 解 和 算法 9.25 产 生 的 MFP 解 之 间 有 何 关 系 呢 ? 











我 们 首先 讨论 一 下 访问 结 点 的 顺序 。 在 一 次 迭代 中 ， 我 们 可 能 在 访 
问 一 个 结 点 的 前 驱 之 前 就 访问 这 个 结 点 。 如 果 其 前 驱 为 ENTRY 结 点 ， 
OUT [ENTRY] 已 被 初始 化 为 正确 的 常量 值 。 其 他 结 点 的 OUT 值 被 初 
始 化 为 顶 元 素 十 ， 这 个 值 不 小 于 最 后 的 结果 。 由 单调 性 可 知 ， 使 用 下 
作为 输入 得 到 的 结果 不 小 于 期 望 解 。 从 某 种 意义 上 说 ， 我 们 把 丁当 作 
表示 不 包含 任何 信息 的 值 。 


提前 应 用 交汇 运算 的 效果 是 什么 呢 ? 考虑 图 9-24 中 的 简单 例子 ， 并 
假设 我 们 对 IN [Bs4j 的 值 感 兴趣 。 根 据 MOP 的 定义 : 














图 9-24 说 明 提前 应 用 路 径 交 汇 运算 的 效果 的 流 图 
MOPLB4j =( (PR °fp,) AM (fs, °fs,))(vENTRY) 
在 欠 代 算法 中 ， 如 果 我 们 按照 B1}、B,、B3、B4 的 顺序 访问 结 点 ， 那 么 


INLB4 | =fB, ((fB, (VENTRY) 人 Jp (VENTRY) ) ) 


在 MOP 的 定义 中 最 后 才 应 用 交汇 运算 ， 而 迭代 算法 则 提早 使 用 这 个 
函数 。 只 有 当 数 据 流 框架 为 可 分 配 时 得 到 的 解 才 是 相同 的 。 如 果 一 个 数 
据 流 框架 单调 但 不 可 分 配 ， 我 们 仍然 有 IN [B4] <MOP [B4] 。 回 忆 一 
下 ， 总 的 来 次 ， 如 条 对 所 有 的 基本 块 B 都 有 IN [LB] <IDEAL LBj ， 那 
么 这 个 解 就 是 安全 的 (保守 的 ) 。 这 个 解 当然 是 安全 的 ， 因 为 


MOP [B] <IDEAL [B] 。 


我 们 现在 简略 说 明 一 下 为 什么 迭代 算法 提供 的 MEP 解 总 是 安全 的 。 
对 i 进行 简单 的 归纳 就 可 以 表明 在 第 i 次 迭代 之 后 得 到 的 值 小 于 或 等 于 对 
所 有 长 度 小 于 等 于 i 的 路 径 进行 交 汇 运算 而 得 到 的 值 。 但 是 当 失 代 算 法 
终止 的 时 候 ， 它 得 到 的 值 和 再 进行 任意 多 次 迭代 所 得 到 的 值 相同 。 因 此 
其 结果 不 会 大 于 MOP 解 。 因 为 MOP<IDEAL 有 日 MFP<MOP， 我 们 知道 
MEFP<IDEAL， 因 此 由 迭代 算法 提供 的 MEFP 解 是 安全 的 。 

















9.3.5 ”9.3 节 的 练习 


练习 9.3.1: 构造 一 个 三 个 格 的 乘积 的 格 图 。 其 中 的 每 个 格 都 是 基于 
单一 定 值 di (i=1，2，3) 。 得 到 的 格 图 和 图 9-22 中 的 格 图 有 什么 关系 ? 


! 练习 9.3.2: 在 9.3.3 节 中 ， 我 们 说 如 果 框 架 具 有 有 限 的 高 度 ， 那 么 
迭代 算法 收敛 。 这 里 给 出 一 个 框架 没有 有 限 高 度 且 欠 代 算法 也 不 收敛 的 
wk 今 值 集 V 是 非 负 实数 ， 令 交汇 运算 为 取 最 小 值 运 算 。 有 三 个 传递 











1) 单元 函数 各 (x) =x。 
2)“ 半 ”函数 ， 即 函数 fi (x) =x/2。 
3)“ 一 ”函数 ， 即 函数 fo (x) =1。 


传递 函数 的 集合 F 是 这 三 个 函数 以 及 它们 按照 各 种 可 能 方式 组 合 得 
到 的 函数 。 


1) 描述 函数 集 F。 
2) 这 个 框架 的 < 关系 是 什么 ? 


3) 给 出 一 个 流 图 并 在 流 图 的 各 个 结 点 上 赋予 传递 函数 ， 使 得 算法 
9.25 对 这 个 流 图 不 收敛 。 


4) 这 个 框架 是 单调 的 吗 ? 它 是 可 分 配 的 吗 ? 














! 练习 9.3.3: 我 们 说 如 果 框 架 单 调 且 具有 有 限 高 度 ， 那 么 算法 9.25 
收敛 。 这 里 给 出 一 个 框架 的 例子 。 它 说 明 单 调 性 是 很 重要 ， 有 穷 高 度 不 
足以 保证 算法 收敛 。 这 个 框架 的 域 V 是 {1，2} ， 交 汇 运算 是 min， 而 
函数 集 F 只 有 单元 函数 (fi ) 和 “ 蔡 换 ”函数 (fo。(x) =3-x) ， 它 的 功能 是 
使 得 值 在 1 和 2 之 间 互 换 。 


1) 说 明 这 个 框架 上 共有 有 限 蜗 度 ， 但 古 不 单调 。 


2) 给 出 一 个 流 图 的 例子 ， 并 给 每 个 结 反 赋予 一 个 传递 冰 数 ， 使 得 
算法 9.25 对 这 个 流 图 不 收敛 。 


! 练习 9.3.4: 令 MOP; [Bj] 为 所 有 从 程序 入 口 结 点 到 达 基 本 块 B 的 
长 度 不 大 于 i 的 路 径 的 交汇 运算 结果 值 。 证 明 在 算法 9.25 和 迭代 i 次 之 后 ， 
IN [LB]」<MOP; LB] 。 同 时 证 明 ， 作 为 上 面 结论 的 推论 ， 如 果 算 法 9.25 
收敛 ， 它 必然 收 钱 于 某 个 和 MOP 解 具有 < 关系 的 值 。 


! 练习 9.3.5: 假设 一 个 框架 的 传递 函数 集合 FE 具有 gen-kill 形 式 。 也 
就 是 说 ， 域 V 是 某 个 集合 的 容 集 ， 而 f (x) =GU (x-K) ， 其 中 G 和 K 是 
I 证 明 如 果 交 汇 运算 是 并 集运 算 或 交集 运算 ， 框 架 都 是 可 分 配 











9.4 第 量 传播 


在 9.2 节 中 讨论 的 所 有 数据 流 模 式 实 际 上 都 是 具有 有 限 高 度 的 可 分 
配 框架 的 简单 例子 。 这 样 ， 迭 代 算 法 9.25 的 前 向 或 逆向 版 本 可 以 用 来 解 
决 这 些 问题 ， 并 求 出 每 个 问题 的 MOP 解 。 在 本 节 中 ， 我 们 将 深入 研究 一 
个 具有 更 多 有 趣 性 质 的 有 用 的 数据 流 框 架 。 

回忆 一 下 常量 传播 〈 或 者 说 “常量 折 和 县 ?>) ， 即 把 那些 在 每 次 运行 时 
总 是 得 到 相同 常量 值 的 表达 式 蔡 换 为 该 常量 值 。 下 面 描述 的 常量 传播 框 
架 和 至 今 已 经 讨论 的 数据 流 问题 都 有 所 不 同 。 不 同 之 处 在 于 : 


1) 它 的 可 能 数据 流 值 的 集合 是 无 界 的 。 即 使 对 于 一 个 确定 的 流 图 
也 是 如 此 。 


2) 它 不 是 可 分 配 的 。 


常量 传播 是 一 个 前 向 数据 流 问 题 。 表 示 此 问题 数据 流 值 的 半 格 和 问 
题 的 传递 函数 族 在 下 面 给 出 。 




















9.4.1 种 量 传播 框架 的 数据 流 值 


这 个 问题 的 数据 流 值 的 集合 是 一 个 乘积 格 ， 其 中 每 个 分 量 对 应 于 程 
序 中 的 一 个 变量 。 单 个 变量 的 格 由 下 列 元 系 组 成 : 


1) 所 有 符合 该 变量 的 类 型 的 常量 值 。 


2) 值 NAC， 即 not-a-constant， 表 示 非 常量 值 。 当 确定 一 个 变量 的 
值 不 是 常量 值 时 ， 访 变量 就 被 映射 到 值 NAC。 这 个 变量 被 映射 到 NAC 
值 的 原因 可 能 是 它 被 赋予 了 一 个 输入 变量 的 值 ， 或 者 它 从 一 个 不 具 常 量 
四 也 可 能 是 在 到 达 同 一 程序 点 的 不 同 路 径 上 被 赋予 不 
司 的 常量 值 。 


3) 值 UNDEF， 代 表 未 定义 。 如 果 还 不 能 确定 任何 有 关 这 个 变量 的 
信息 ， 就 把 它 映射 到 这 个 值 上 。 原 因 很 可 能 是 还 没有 发 现 有 哪个 对 这 个 











变量 的 定 值 能 够 到 达 问 题 中 的 程序 点 。 


请 注意 ，NAC 和 UNDEF 是 不 同 的 ， 实 质 上 它们 是 对 立 的 。NAC 说 
我 们 已 经 知道 一 个 变量 有 多 种 定 值 方式 ， 因 此 我 们 知道 它 不 是 常量 ; 
道 得 非常 少 ， 以 至 于 我 们 根本 不 能 确 
定 任何 


一 个 典型 的 整数 类 型 变量 的 半 格 如 图 9-25 所 示 。 这 里 ， 顶 元 素 是 
UNDEF， 抵 元 素 是 NAC。 也 就 是 说 ， 半 格 的 偏 序 的 最 大 值 是 UNDEF， 
最 小 值 是 NAC。 其 他 的 常量 值 是 无 序 的 ， 但 是 它们 都 比 UNDEF 小 而 比 
NAC 大 。 如 9.3.1 节 所 讨论 的 ， 两 个 值 的 交 是 它们 的 最 大 下 界 。 因 此 ， 对 
于 所 有 的 值 v>， 有 
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图 9-25 表示 了 一 个 整数 类 型 变量 的 所 有 可 能 “ 取 值 ”的 半 格 
UNDEFA 和 人 v=vHNACA 八 v=NAC 


对 于 任意 的 常量 ce， 有 








GA C= 
且 给 定 两 个 不 同 的 常量 cy 和 c， 》 有 
cl1 人 cz=NAC 


这 个 框架 中 的 一 个 数据 注 值 是 从 程序 中 的 各 个 变量 到 上 面 的 常量 
格 中 的 茶 个 值 的 映射 。 变 量 v 在 一 个 映射 m 中 的 值 记 为 mn (v)〉。 


9.4.2 常量 传播 框架 的 交汇 运算 


这 个 数据 流 问 题 的 数据 流 值 的 半 格 就 是 图 9-25 中 所 示 半 格 的 乘积 ， 
对 于 每 个 变量 有 一 个 图 9-25 中 所 示 的 半 格 。 因 此 ，mxm' 当 且 仅 当 对 于 所 
有 的 变量 v 都 有 m (v) <m' (v) 。 换 句 话 说 ，mAm'=m" 当 且 仅 当 对 于 
所 有 的 变量 v，m (Cv) Am' (v) =m" (Cv) 。 

















9.4.3 ”第 量 传播 框架 的 传 鸳 函 数 


下 面 我 们 假设 一 个 基本 块 只 包含 一 个 语句 。 包 含 多 个 语句 的 基本 块 
的 传递 函数 可 以 通过 将 各 个 语句 对 应 的 传递 函数 组 合 起 来 而 构造 得 到 。 
函数 集合 F 由 一 组 传递 函数 组 成 ， 这 些 传递 函数 接受 的 输入 是 一 个 从 程 
序 变 量 到 常量 格 中 元 素 的 映 冉 ， 而 其 返回 值 则 是 为 一 个 这 样 的 映射 。 


F 包 含 一 个 单元 函数 ， 它 接受 一 个 映射 作为 输入 并 返回 相同 的 映 
射 。F 也 包含 了 对 应 于 ENTRY 结 点 的 常 值 传 递 函 数 。 这 个 传递 函数 对 于 
任意 的 输入 映射 都 返回 映射 mo， 而 对 于 所 有 的 变量 v，mo (Vv) 
=UNDEF。 因 为 在 执行 任何 程序 语句 之 前 任何 变量 都 没有 和 定义， 因此 这 
个 边界 条 件 是 合理 的 。 


一 般 来 说 ， 令 f 为 语句 s 的 传递 函数 ， 并 令 m 和 m' 表 示 满 足 m 
'=f,(m) 的 两 个 数据 流 值 。 我 们 将 用 m 和 m' 之 间 的 关系 来 描述 f。 


1) 如 果 s 不 是 一 个 赋值 语句 ， 那 么 f: 就 是 单元 函数 。 


2) 如 果 s 是 一 个 对 变量 x 的 赋值 ， 那 么 对 于 所 有 变量 Vzx，m' (Vv) 
=m (v) ; 其 中 m' (x)〉 的 定义 如 下 : 


(a) 如 果 语 句 s 的 右 部 (RHS) 是 一 个 常量 ec， 那么 m' (x) =c。 




















(b) 如 果 RHS 形 如 y+zHH， 那 么 


m(y) +m(z) 如 果 m(y) 和 m(z) 都 是 常量 
m’'(x) = /NAC 如 果 m(y) 或 者 m(z) 是 NAC 
UNDEF 否则 


(c) 如 果 RHS 是 其 他 表达 式 〈 比 如 一 个 函数 调用 ， 或 者 使 用 指针 
的 赋值 ) ， 那 么 m' (x) =NAC。 


9.4.4 ”常量 传递 框架 的 单调 性 


现在 我 们 来 证 明 第 量 传递 框架 是 单调 的 。 首先， 我 们 可 以 考虑 一 个 
函数 f 对 于 单个 变量 的 影响 。 除 了 情况 2(b) 之 外 ,ff 要么 没有 改变 
m (x) 的 值 ， 要 么 把 x 的 映射 值 改 成 一 个 常量 或 者 NAC。 在 这 些 情况 
下 ，f 无 疑 是 单调 的 。 


对 于 情况 2 (b) ， 玉 的 影响 如 图 9-26 所 示 。 第 一 列 和 第 二 列 代表 y 及 
z 的 可 能 输入 值 ， 最 后 一 列表 示 X 的 输出 值 。 每 列 《 或 者 每 个 子 列 ) 中 的 
值 按照 从 大 到 小 的 方式 排列 。 为 了 说 明 函 数 的 单调 的 ， 我 们 将 检验 下 面 
的 性 质 ， 即 对 于 y 的 每 个 可 能 的 输入 值 ，x 的 值 不 会 在 z 值 变 小 的 时 候 变 
大 。 比 如 ， 在 y 具 有 常量 值 cj 的 情况 下 ， 当 z 的 值 从 UNDEF 变 为 c。、 再 变 
为 NAC 时 ，x 的 取 值 相应 地 从 UNDEF 变 为 cj/+c,、 再 到 NAC。 我 们 可 以 
对 y 的 所 有 可 能 取 值 重复 这 个 检验 过 程 。 因 为 对 称 性 ， 我 们 甚至 不 需要 
WF 当 输 入 变 小 的 时 候 输 
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图 9?-26，x=y+z 的 常量 传播 函数 


9.4.5 ”常量 传播 框架 的 不 可 分 配 性 





上 面 定 义 的 常量 传播 框 染 是 单调 的 ， 但 不 是 可 分 配 的 。 也 就 是 说 ， 
迭代 解 MFP 是 安全 的 ， 但 是 可 能 比 MOP 解 小 。 可 以 用 一 个 例子 来 证 明 这 
个 框架 不 是 可 分 配 的 。 


在 图 9-27 的 程序 中 ，x 和 y 在 基本 块 Bi 中 被 分 别 设置 为 2 和 3， 
人 分 别 设置 为 3 和 2。 我 们 知道 ， 不 管 按 照 哪 条 0 
在 基本 块 Bs 的 结尾 处 z 的 值 都 是 5。 但 是 ， 上 面 的 迭代 算法 没有 发 现 这 个 
事实 。 相 反 地 ， 它 在 Bs 的 入 口 处 应 用 交汇 运算 ， 并 把 x 和 y 的 值 都 设置 为 
NAC。 因 为 两 个 NAC 相 加 的 结果 还 是 NAC， 算 法 9.25 在 程序 的 出 口 处 产 
生 的 输出 是 z=NAC。 这 个 结果 是 安全 的 ， 但 是 不 够 精确 。 算 法 9.25 不 够 
精确 的 原因 是 它 没 有 跟踪 x 和 y 之 间 的 相关 性 ， 当 x 是 2 时 y 必 然 是 3， 而 当 
x 是 3 时 y 必 然 是 2。 可 以 使 用 一 个 更 加 复杂 的 框架 来 跟踪 包含 程序 变量 的 
表达 式 之 间 的 相等 关系 ， 但 是 这 个 方法 的 代价 要 高 得 多 。 这 个 方法 将 在 
练习 9.4.2 中 讨论 。 

















图 9-27 一 个 说 明 常 量 传播 框架 不 可 分 配 的 例子 
从 理 t ee os 的 丧失 归 因 于 篆 量 传播 框架 的 不 可 
分 配 性 。 令 全 、 分 别 是 代表 基本 块 Bl、B，、B3 的 传递 函数 。 如 图 9- 
28 上 所 示 ， 


Tm A | me 


7720 


万 
万 


mo 


(mo) 
(mo) 
(mo) 


fi(mo) A f2(mo) 


fs(fi(mo) 人 fo(mo0)) 
fa(fi(mo)) 
a i 


fs(fi(mo)) A fs(f2(mo0)) 


图 9-28 不 可 分 配 的 传递 函数 的 例子 





体现 了 这 个 框 染 的 不 可 分 配 性 。 


9.4.6 ”对 算法 结果 的 解释 


在 友 代 算法 中 使 用 值 UNDEF 有 两 个 目的 : 初始 化 ENTRY 结 点 ， 以 
及 在 迭代 之 前 对 程序 内 部 的 点 进行 初始 化 。UNDEEF 在 这 两 种 情况 下 的 
含义 略 有 不 同 。 第 一 种 情况 是 说 变量 在 程序 开始 执行 的 时 候 是 没有 定 值 
的 ; 第 二 种 情况 是 表示 因为 在 迭代 过 程 开 始 的 时 候 缺 乏 信 息 ， 因 此 我 们 
把 解 近 似 估 算 为 项 元 素 UNDEF。 在 迭代 过 程 结束 后 ， 在 ENTRY 结 点 的 
出 口 处 各 个 变量 的 值 仍然 是 UNDEF， 因 为 OUT [ENTRY ] 不 会 改变 。 


UNDEF 值 也 可 能 出 现在 某 些 其 他 的 程序 点 上 。 它 们 的 出 现 意味 着 
在 到 达 该 程序 点 的 所 有 路 径 中 尚未 发 现任 何 对 该 变量 的 定 值 。 请 注意 ， 
根据 我 们 定义 交汇 运算 的 方式 ， 只 要 有 一 个 对 该 变量 定 值 的 路 径 到 达 该 
程序 点 ， 变 量 的 值 束 不 是 UNDEF 了 。 如 果 到 达 一 个 程序 点 的 所 有 定 值 
都 有 同样 的 常量 值 ， 那 么 即使 该 变量 可 能 在 某 些 路 径 上 没有 被 定 值 ， 它 
仍然 会 被 当 作 是 常量 。 


如 果 假 设 被 分 析 的 程序 是 正确 的 ， 我 们 的 算法 就 可 以 发 现 比 不 做 这 
个 假设 时 更 多 的 常量 。 也 就 是 说 ， 我 们 的 算法 会 为 可 能 未 定 值 的 变量 选 
择 适 当 的 值 ， 以 便 程 序 能 够 更 加 高 效 地 执行 。 在 大 多 数 程序 设计 语言 
中 ， 这 种 改变 是 合法 的 ， 因 为 在 这 些 语言 中 未 定 值 的 变量 可 以 取 任 何 
值 。 如 果 语 言 的 语义 要 求 所 有 未 定 值 的 变量 取 东 个 特定 的 值 ， 那 么 我 们 
就 必须 相应 地 改变 在 这 个 数据 流 问 题 中 使 用 的 公式 。 如 果 我 们 对 寻找 程 
序 中 可 能 未 定 值 的 变量 感 兴趣 ， 就 可 以 用 公式 刻画 出 一 个 不 同 的 数据 沈 
分 析 问 题 ， 以 提供 相应 的 结果 《〈 见 练习 9.4.1) 。 


在 图 9-29 中 ， 变 量 x 在 基本 块 B, 和 Bs 的 出 口 处 的 值 分 别 为 10 和 
UNDEF。 因 为 UNDEF 和 人 A10=10，x 在 基本 块 B4 的 入 口 点 的 值 是 10。 因 此 
可 以 在 使 用 x 的 基本 块 Bs 中 把 x 符 换 为 音量 10， 从 而 对 Bi 进行 优化 。 如 果 
被 执行 的 路 径 是 B; Bs B4-Bs， 那 么 到 达 基 本 块 Bs 时 x 的 值 尚 未 定 
值 。 因 此 把 对 x 的 使 用 蔡 换 为 10 看 起 来 是 不 正确 的 。 









































图 9-29 UNDEF 和 一 个 常量 值 的 交汇 运算 值 


但 是 如 果断 言 Q 为 真 时 断言 Q 不 可 能 为 假 ， 那 么 这 个 执行 路 径 实际 





上 不 可 能 出 现 。 虽 然 程序 员 可 能 知道 这 个 事实 ， 但 判定 这 个 事实 已 经 超 
出 了 任何 数据 流 分 析 技 术 的 能 力 。 因 此 ， 如 果 我 们 假设 程序 是 正确 的 ， 
并 且 所 有 变量 在 被 使 用 之 前 都 已 经 定 值 ， 那 么 x 在 基本 块 B5 开 始 处 的 值 
只 能 是 10。 如 有 果 程 序 一 开始 就 是 不 正确 的 ， 那 么 选择 10 作 为 x 的 值 不 可 
能 比 允 许 x 取 随机 值 的 效果 更 糟 。 


9.4.7 9.4 节 的 练习 





! 练习 9.4.1: 假设 我 们 希望 检测 一 个 变量 是 否 有 可 能 在 尚未 初始 化 
Ws 0 你 将 如 何 修改 本 市 中 的 框架 来 检测 
这 种 情况 ? 


! ! 练习 9.4.2: 在 一 个 有 趣 且 功能 强大 的 数据 流 分 析 框 架 中 ， 值 域 
V 是 对 表达 式 的 所 有 可 能 的 分 划 。 两 个 表达 式 在 此 分 划 的 同一 个 等 价 类 
中 当 且 仅 当 沿 着 任何 路 径 到 达 问 题 中 的 程序 点 时 它们 一 定 具 有 相同 的 
值 。 为 了 避免 列 出 无 穷 多 个 表达 式 ， 我 们 可 以 只 列 出 最 少 的 等 值 表达 式 
对 来 表示 V。 比 如 ， 如 果 我 们 执行 语句 











a = b 
c=a+t+d 
那么 最 小 的 等 值 表达 式 对 的 集合 是 {asb，c=a-d} 。 从 这 些 表达 式 对 可 
以 推出 其 他 的 等 值 关 系 ， 比 如 c=sb+d 和 a+e=b+e 等 ， 但 是 没有 必要 明确 地 
把 这 些 表达 式 都 列 出 来 。 
1) 适用 于 这 个 框架 的 交汇 运算 是 什么 ? 


2) 给 出 一 个 数据 结构 来 表示 域 中 的 值 ， 并 给 出 一 个 算法 来 实现 交 
汇 运算 。 


3) 适用 于 各 个 语句 的 传递 阔 数 是 什么 ? 解释 一 下 a=b+c 这 样 的 语句 
对 于 一 个 表达 式 分 划 〔 即 V 中 的 一 个 值 〉 的 影响 。 


4) 这 个 框 染 是 单调 的 吗 ? 是 可 分 配 的 吗 ? 











9.5 ”部 分 见 余 消除 





在 本 节 中 ， 我 们 详细 考虑 如 何 尽 量 减 少 表达 式 求 值 的 次 数 。 也 残 是 
说 ， 我 们 布 望 考虑 一 个 流 图 中 所 有 可 能 的 执行 顺序 并 检查 x+ty 这 样 的 表 
达 式 被 求 值 的 次 数 。 通 过 移动 各 个 对 x+y 求 值 的 位 置 ， 并 在 必要 时 把 求 
值 结果 保存 在 临时 变量 中 ， 我 们 常常 可 以 在 很 多 执行 路 径 中 减少 这 个 表 
达 式 被 求 值 的 次 数 ， 并 保证 不 增加 任何 路 径 中 的 求 值 次 数 。 请 注意 ， 在 
流 图 中 x+y 被 求 值 的 位 置 可 能 增多 ， 但 是 相对 来 说 这 一 点 并 不 重要 ， 只 
要 对 表达 式 x+y 求 值 的 次 数 被 减少 就 行 了 。 


应 用 本 节 开 发 的 代码 转换 可 以 提高 所 生成 的 代码 的 性 能 。 这 是 因 
为 ， 正 如 我 们 即将 看 到 的 ， 在 改进 后 的 代码 中 ， 只 有 在 绝对 必要 时 才 会 
进行 一 次 运算 。 每 个 优化 编译 喜 都 或 多 或 少 地 实现 了 本 节 中 描述 的 转 
换 ， 昌 然 有 些 编 译 器 使 用 的 算法 没有 本 节 中 的 算法 那么 < 激进 ”。 但 是 ， 
还 有 为 一 个 动机 促使 我 们 来 讨论 这 个 问题 。 在 流 图 中 寻找 (一 个 或 多 
个 ) 适当 的 位 置 来 对 各 个 表达 式 求 值 需要 进行 四 种 不 同 的 数据 流 分 析 。 
因此 ， 对 “部 分 见 余 消除 ”( 即 尽量 减少 表达 式 求 值 次 数 的 技术 〉 的 研究 
可 以 帮助 我 们 理解 数据 流 分 析 技 术 在 编译 器 中 所 扮演 的 角色 。 


程序 中 的 元 余 以 多 种 形式 存在 。 如 9.1.4 节 所 讨论 的 ， 它 可 能 以 公共 
子 表 达 式 的 形式 存在 ， 即 对 表达 式 的 多 次 求 值 产生 同样 的 结果 。 它 也 可 
能 以 循环 不 变 表 达 式 的 方式 存在 ， 这 个 表达 式 在 循环 的 每 次 碗 代 中 都 得 
到 相同 的 值 。 元 余 也 可 能 是 部 分 性 的 ， 即 只 能 在 部 分 路 径 而 不 是 全 部 路 
径 中 找到 这 个 见 余 。 公 共 子 表达 式 和 循环 不 变 表 达 式 可 以 被 看 作 是 部 分 
Ra 


接 下 来 ， 我 们 首先 讨论 元 余 的 不 同形 式 ， 以 便 对 这 个 问题 有 直观 的 
理解 。 然 后 再 描述 一 般 性 的 见 余 消除 问题 ， 并 在 最 后 给 出 解决 问题 的 算 
法 。 这 个 算法 很 有 意思 ， 因 为 它 涉及 多 种 数据 流 问 题 的 求解 。 这 些 问 题 
中 既 有 前 向 问题 ， 也 有 北向 问题 。 























9.5.1 宛 余 的 来 源 


图 9-30 演 示 了 元 余 的 三 种 形式 : 公共 于 表达 式 、 循 环 不 变 表达 式 和 
部 分 见 余 表达 式 。 该 图 中 给 出 了 优化 之 前 和 之 后 的 代码 。 














a) 公共 子 表达 式 b) 循环 不 变 代 码 移动 c) 部 分 元 余 消 除 
图 9-30 ”各 种 宛 余 的 例子 


全 局 公共 子 表达 式 


在 图 9-30a 中 ， 基 本 块 B4 中 计算 的 表达 式 b+c 是 元 余 的 。 不 管 按照 哪 
条 路 径 ， 当 控制 流 到 达 B4 时 这 个 表达 陈 在 之 前 已 经 被 求 过 值 了 。 正 如 我 
们 在 这 个 例子 中 观察 到 的 ， 在 不 同 的 路 径 上 表达 式 可 能 取 不 同 的 值 。 我 
们 可 以 按照 下 面 的 方法 优化 代码 。 在 基本 块 B* 和 B3 中 把 b+c 的 计算 结 
存放 到 同一 个 临时 变量 (比如 说 t) 中 。 然 后 在 基本 块 B4 中 不 再 重新 计 
算 这 个 表达 式 ， 而 是 直接 把 t 的 值 赋 给 e。 如 果 在 对 b+c 的 最 后 一 次 求 值 
之 后 以 及 基本 块 By 之 前 对 b 或 c 有 一 个 赋值 运算 ， 那 么 Bs 中 的 这 个 表达 式 
就 不 再 是 元 余 的 。 


正式 地 讲 ， 如 果 按 照 9.2.6 节 的 说 法 ， 一 个 表达 式 b+c 在 程序 点 p 上 是 
一 个 可 用 表达 式 ， 我 们 就 说 该 表达 式 在 该 点 上 是 (完全) 匈 余 的 。 也 就 
是 说 ， 在 所 有 到 达 p 的 路 径 中 ， 表 达 式 b+c 已 经 被 求 过 值 ， 并 且 在 最 后 一 
次 求 值 之 后 变量 b 和 c 没 有 被 重新 定 值 。 后 一 个 条 件 是 必须 的 ， 因 为 虽然 
从 字面 上 看 表达 式 b+c 在 到 达 点 p 时 已 经 执行 过 了 ， 但 在 p 点 计算 得 到 的 

















b+c 的 值 可 能 是 不 同 的 ， 因 为 运算 分 量 可 能 已 经 改变 了 。 


哥 找 “ 作 层 ”公关 于 表达 去 


使 用 可 用 表达 式 分 析 来 寻找 元 余 表 达 式 时 只 能 够 找 出 字面 上 相同 
的 可 用 表达 式 。 比 如 ， 如 果 两 个 代码 片断 


ti=b+c:a= tl1+d; 


t2= b+c;e= t2+4d; 


之 间 b 和 c 没 有 被 重新 定 值 ， 那 么 应 用 公共 子 表 达 式 消除 可 以 发 现在 第 
一 个 代码 厂 断 中 的 tL 和 第 三 个 代码 片断 中 的 t 忆 具有 相同 的 值 。 但 是 它 
无 法 发 现 a 和 e 的 值 也 相同 。 如 果 要 找 出 这 一 类 “深层 ”的 公共 子 表达 

式 ， 我 们 可 以 重复 应 用 公共 子 表达 式 消 除 搁 术 ， 直 到 某 一 次 应 用 时 找 
不 到 新 的 公共 子 表达 式 为 止 。 男 一 种 可 能 的 方法 是 使 用 练习 9.4.2 中 的 
框架 来 找 出 “深层 ”公共 子 表达 式 。 








人 循环 不 变 表达 式 


图 9-30b 给 出 了 一 个 循环 不 变 表达 式 的 例子 。 假 设 变 量 b 和 c 在 循环 
中 没有 被 重新 定 值 ， 那 么 b+c 就 是 循环 不 变 的 。 我 们 可 以 把 循环 中 的 所 
有 重复 执行 符 换 为 循环 外 的 单 次 计算 ， 从 而 优化 程序 。 我 们 把 计算 的 结 
果 赋 了 予 一 个 临时 变量 ， 比 如 说 t， 然 后 把 循环 中 的 表达 陈 答 换 为 (。 当 进 
行 与 此 类 似 的 “代码 移动 ”优化 时 ， 我 们 还 需要 考虑 为 一 个 问题 。 我 们 不 
应 该 执行 任何 在 未 优化 时 不 执行 的 指令 。 比 如 ， 如 果 有 可 能 在 不 执行 这 
个 循环 不 变 指 令 时 束 离 开 循环 ， 那 么 我 们 就 不 应 该 把 该 指令 移动 到 循环 
之 外 。 这 样 做 有 两 个 原因 。 


1) 如 果 该 指令 会 引发 一 个 异常 ， 那 么 执行 此 指令 可 能 会 抛 出 一 个 
原 程序 中 本 来 不 会 发 生 的 弄 铝 。 








， 如 果 循 环 提早 退出 , “优化 ?过 的 程序 需要 的 执行 时 间 比 原 程 序 


保证 while 循 环 中 的 循环 不 变 表达 式 可 以 被 优化 ， 编 译 器 通 沼 
巴 语 折 
while c 式 
S; 
} 


表示 成 为 下 面 的 等 价 语句 


EF i 4 
repeat 
S; 
until not c; 


} 


通过 这 种 方法 ， 各 个 循环 不 变 表达 式 可 以 直接 放置 在 repeat-until 结 构 之 
|] 。 


= 


在 公共 子 表 达 式 消除 中 ， 一 个 见 余 的 表达 式 计算 被 直接 丢弃 。 循 环 
不 变 表达 式 消除 和 公共 子 表 达 式 消除 不 同 ， 它 要 求 把 循环 内 的 一 个 表达 
式 移动 到 循环 之 外 。 因 此 ， 这 个 优化 通常 叫做 “循环 不 变 代码 移动 "。 循 
环 不 变 代码 移动 可 能 需要 重复 进行 ， 因 为 一 旦 一 个 变量 被 确定 具有 循环 
不 变 的 值 ， 使 用 这 个 变量 的 茶 些 表达 式 也 可 能 成 为 循环 不 变 的 。 


部 分 见 余 表达 式 


一 个 部 分 见 余 表达 式 的 例子 如 图 9-30c 所 示 。 基 本 块 Bs 中 的 表达 式 
b+c 在 路 径 B1; ~- B, - B4 上 元 余 ， 但 是 在 路 径 Bl; Bs 一 B4 上 不 见 余 。 我 们 
可 以 在 基本 块 B3 上 放 一 个 计算 b+c 的 指令 ， 从 而 消除 前 一 条 路 径 上 的 元 
余 。 所 有 b+c 的 计算 结果 都 被 写 进 临 时 变量 t， 并 且 B4 中 对 b+c 的 计算 用 tt 
蔡 代 。 因 此 ， 和 循环 不 变 代码 移动 一 样 ， 部 分 元 余 消除 需要 放置 一 些 新 
的 表达 式 计 算 指 令 。 











9.5.2 ”可 能 消除 所 有 元 余 吗 


可 能 消除 各 条 路 径 上 的 所 有 宛 余 计算 吗 ? 除非 我 们 能 够 通过 创建 新 
的 基本 块 来 改变 流 图 ， 否 则 答案 是 “不 能 ”。 
[到 在 图 9-31a 显 示 的 例子 中 ， 如 果 程 序 的 执行 路 径 是 
Bi 有 B4， 则 表达 式 b+c 在 基本 块 B4 中 守 余 地 计算 。 但 是 ， 我 们 不 能 
简单 地 把 b+c 的 计算 指令 移动 到 B3， 因 为 这 么 做 会 在 执行 路 径 为 
Bi 一 B3-Bs 时 多 计算 一 次 b+c。 











图 9-31 B3 一 B4 是 一 条 关键 边 


我 们 想 做 的 是 在 基本 块 Bs 和 By 之 间 的 边 上 插入 b+c 的 计算 指令 。 为 
了 插入 这 个 指令 ， 我 们 可 以 创建 一 个 新 的 基本 块 ， 比 如 Be6， 把 该 指令 放 
到 Be 中 ， 并 使 得 从 Bs 开始 的 控制 流 首先 经 过 Be 再 到 达 B4。 这 个 转换 显示 
在 图 9-31b 中 。 


我 们 把 所 有 从 一 个 具有 多 个 后 继 的 结 点 到 达 男 一 个 具有 多 个 前 驱 的 
结 点 的 边 定 义 为 流 图 的 关键 边 (critical edge) 。 通 过 在 关键 边 上 引入 新 
的 基本 块 ， 我 们 总 是 可 以 找到 一 个 基本 块 作为 放置 表达 式 的 适当 位 置 。 
比如 在 图 9-31b 中 从 B3 到 By 的 边 就 是 关键 边 ， 因 为 B3 具 有 两 个 后 继而 Bs 
有 两 个 前 驱 。 


仅 徘 增加 基本 块 可 能 不 足以 消除 所 有 的 元 余 计算 。 如 例 9.29 所 示 ， 


我 们 要 复制 代码 ， 以 便 把 找到 的 具有 元 余 特 性 的 路 径 隅 离开 来 。 


[亚太 在 图 9-32a 所 示 的 例子 中 ， 表 达 式 b+c 沿 着 路 径 B1 -,B, -By -Be 
被 元 余地 计算 。 我 们 可 能 愿意 从 这 条 路 径 的 基本 块 Be 中 删除 b+c 的 抑 余 
计算 ， 并 只 在 路 径 B| ,Bs Bs ,Bs 上 计算 这 个 表达 式 。 但 是 ， 源 程序 中 
没有 哪个 程序 点 或 边 唯一 地 对 应 于 第 二 条 路 径 。 为 了 创建 这 样 一 个 程序 
点 ， 我 们 可 以 复制 一 对 基本 块 B, 和 B,， 其 中 的 一 对 经 过 B, 到 达 ， 而 另 一 
对 经 过 B3 到 达 ， 如 图 9-32b 所 示 。 基 本 块 B, 中 的 表达 式 b+c 的 结果 存放 在 f 
中 ， 并 在 85 中 被 移动 到 变量 4 中 。B85 是 从 B, 到 达 的 Be 的 拷贝 。 





























图 9-32 为 消除 宛 余 所 做 的 代码 复制 


因为 路 径 数 目 和 程序 中 条 件 分 文 的 数目 之 间 具 有 指数 关系 ， 所 以 消 
除 所 有 的 元 余 表达 式 可 能 会 大 大 增加 优化 后 代码 的 大 小 。 因 此 我 们 对 所 
讨论 的 元 余 消除 技术 做 了 一 些 限制 ， 即 只 允许 引入 新 的 基本 块 ， 但 是 不 
允许 复制 控制 流 图 的 任何 部 分 。 


9.5.3” 懒 情 代码 移动 问题 


我 们 期 望 使 用 部 分 见 余 消除 算法 进行 优化 而 得 到 的 程序 能 够 具有 下 
列 性 质 : 


1) 所 有 不 复制 代码 就 可 以 消除 的 表达 式 见 余 计算 都 被 消除 挥 了 。 
2) 优化 后 的 程序 不 会 执行 原来 的 程序 中 不 执行 的 任何 计算 。 
3) 表达 式 的 计算 时 刻 应 该 尽量 靠 后 。 


最 后 一 个 性 质 是 很 重要 的 ， 因 为 找到 的 元 余 表达 式 的 值 通常 会 在 被 
使 用 之 前 一 直 存 放 在 寄存 器 中 。 尺 量 徘 后 地 计算 一 个 值 可 以 尽 可 能 地 降 
低 该 值 的 生命 周期 ， 即 从 该 值 被 定 值 的 时 刻 到 它 最 后 被 使 用 的 时 刻 之 间 
的 时 间 间 隔 。 缩 短 生命 期 也 束 尽 可 能 降低 了 和 它 使 用 寄存 器 的 时 间 。 我 们 
把 以 尽 可 能 延迟 计算 为 目标 的 部 分 元 余 消 除 优 化 称 为 懒惰 代码 移动 。 


为 了 形成 对 于 这 个 问题 的 直观 理解 ， 我 们 首先 讨论 如 何 推导 单条 路 
径 上 的 茶 个 表达 陈 是 否 具 有 部 分 元 余 性 。 为 方便 起 见 ， 我 们 在 下 面 的 讨 
论 中 假设 每 个 语句 都 是 由 它 上 自己 组 成 的 单 语 句 基 本 块 。 


完全 元 余 


如 宋 在 到 达 基 本 块 B 的 所 有 路 径 中 ， 一 个 表达 陈 e 已 经 被 求 过 值 且 e 
的 运算 分 量 在 其 后 没有 被 重新 定 值 ， 那 么 B 中 的 e 就 是 见 余 的 。 令 5S 是 那 
些 使 得 基本 块 B 中 的 e 变 得 见 余 ， 并 且 包 含 表 达 式 e 的 基本 块 的 集合 。 所 
有 的 从 S 中 的 某 个 基本 块 离开 的 边 必 然 形成 一 个 割 集 (cut set) 。 如 果 把 
这 些 边 删除 ， 那 么 基本 块 B 必 然 和 程序 的 入 口 点 分 离 。 而 且 ， 在 从 S$ 中 
的 基本 块 到 B 的 路 径 中 ，e 的 所 有 运算 分 量 都 没有 说 重新 定 值 。 


部 分 元 余 


如 果 基 本 块 B 中 的 一 个 表达 式 e 只 是 部 分 几 余 ， 那 么 懒惰 代码 移动 算 
法 将 在 该 流 图 中 放置 这 个 表达 式 的 附加 拷贝 ， 试 图 使 得 B 中 的 e 成 为 完全 
见 余 的 。 如 果 该 尝试 成 功 ， 那 么 经 过 优化 后 的 流 图 也 会 有 一 个 基本 块 的 
集合 S， 其 中 的 每 个 基本 块 都 包含 表达 式 e， 并 且 离 开 它 们 的 边 成 为 程序 
入 口 和 B 的 割 集 。 和 完全 元 余 的 情况 一 样 ，e 的 所 有 运算 分 量 都 不 会 在 从 
S 中 的 基本 块 到 B 的 路 径 上 被 重新 定 值 。 





























9.5.4 表达 却 的 预期 执行 


对 于 被 插入 的 表达 式 还 有 一 个 约束 ， 即 保证 优化 后 的 程序 不 会 执行 
额外 的 运算 。 一 个 表达 式 的 各 个 拷贝 所 放置 的 程序 点 必须 预期 执行 
Canticipated) 此 表达 式 。 如 果 从 程序 点 p 出 发 的 所 有 路 径 最 终 都 会 计算 
表达 式 b+tc 的 值 ， 并 且 b 和 c 在 那 时 的 值 就 是 它们 在 点 p 上 的 值 ， 那 么 我 们 
说 一 个 表达 式 b+tc 在 程序 点 p 上 被 预期 执行 。 


现在 让 我 们 研究 一 下 在 一 个 无 环 路 径 B; 一 Bo 一.…. 一 Bo 中 消除 部 分 见 
余 时 应 该 做 些 什么 。 假 设 表达 式 e 仅 仅 在 B1 和 Bu 中 求 值 ， 并 且 e 的 运算 分 
量 没有 在 这 条 路 径 的 基本 块 中 被 重新 定 值 。 假 设 有 一 些 边 和 上 面 的 路 径 
交汇 ， 也 有 一 些 边 从 这 条 路 径 离开 。 我 们 看 到 ，e 在 基本 块 Bi 的 入 口 处 
没有 被 预期 执行 当 且 仅 当 存在 一 个 从 Bj 〈isj<n) 发 出 的 边 ， 它 通 向 一 条 
不 使 用 el 的 值 的 执行 路 径 。 因 此 ， 对 执行 的 预期 限制 了 一 个 表达 式 最 
前 可 以 被 插入 到 哪里 。 


我 们 就 可 以 创建 一 个 包含 了 边 B; ; > Bi; 的 满足 下 面条 件 的 割 集 。 如 
果 e 在 Bi 的 入 口 处 可 用 或 者 被 预期 执行 ， 这 个 割 集 就 使 得 e 在 B, 中 元 余 。 
如 果 e 在 Bi; 的 入 口 处 被 预期 执行 却 不 可 用 ， 我 们 必须 在 这 条 进入 Bi; 的 边 上 
放 一 个 e 的 拷贝 。 


我 们 可 以 选择 放置 表达 式 拷贝 的 位 置 ， 因 为 流 图 中 通常 有 多 个 制 集 
满足 所 有 要 求 。 在 上 面 的 讨论 中 ， 表 达 式 的 计算 在 进入 我 们 所 关心 的 路 
径 的 边 上 引入 。 这 样 做 可 以 在 不 引入 元 余 计算 的 情况 下 使 得 表达 式 的 计 
算 尺 量 靠近 对 表达 式 值 的 使 用 。 请 注意 ， 这 些 被 引入 的 运算 本 里 可 能 因 
为 程序 中 同一 个 表达 式 的 其 他 实例 而 体现 出 部 分 元 余 性 。 这 种 部 分 见 余 
性 可 以 通过 进一步 上 移 计 算 过 程 而 消除 。 


忆 结 一 下 ， 对 表达 式 的 预期 执行 限制 了 一 个 表达 式 可 以 被 放置 得 有 
多 靠 前 。 不 能 把 它 放置 得 太 靠 前 ， 以 至 于 放置 它 的 地 方 还 没有 预期 执行 
它 。 一 个 表达 陈 被 放置 得 越 靠 前 ， 能 够 删除 的 元 余 性 就 越 多 。 在 能 够 消 
除 同样 的 元 余 性 的 各 个 解 中 ， 最 后 一 个 计算 该 表达 式 的 位 置 可 以 使 存放 
该 表达 式 的 寄存 器 的 生命 周期 最 小 化 。 























9.5.5 “懒惰 代码 移动 算法 


至 此 ， 这 里 的 讨论 给 出 了 一 个 包含 四 个 步骤 的 算法 。 第 一 步 使 用 执 
行 预期 来 确定 表达 式 可 以 被 放 在 哪里 ， 第 二 步 寻 找 最 前 的 能 够 在 不 复制 
代码 且 不 引入 不 必要 计算 的 情况 下 消除 最 多 的 元 余 运 算 的 割 集 。 这 个 步 
又 把 表达 式 的 计算 放置 在 最 前 的 预期 执行 这 些 表达 式 的 程序 点 上 。 第 三 
步 把 割 集 尽量 向 后 推 ， 直 到 继续 后 推 会 改变 程序 语义 或 引入 新 的 宛 余 为 
止 。 最 后 的 第 四 步 很 简单 ， 它 删除 那些 给 只 使 用 一 次 的 对 临时 变量 赋值 
的 语句 ， 达 到 清洗 代码 的 目的 。 每 一 个 步骤 都 伴随 一 个 数据 流 分 析 过 

程 :第 一 个 和 第 四 个 是 逆向 数据 流 问题 ， 而 第 二 个 和 第 三 个 是 前 向 的 数 
据 流 问题 。 


算法 概览 


1) 使 用 一 个 逆向 数据 流 分 析 过 程 找 到 各 个 程序 点 上 预期 执行 的 所 
有 表达 式 。 


2) 第 二 步 把 对 表达 式 的 计算 放置 在 满足 下 面条 件 的 程序 点 上 。 对 
于 每 个 这 样 的 点 ， 总 存在 茶 条 路 径 使 得 这 些 点 是 此 路 径 中 第 一 个 预期 执 
行 这 个 表达 式 的 点 。 我 们 在 一 个 表达 式 最 先 被 预期 执行 的 地 方 放置 了 该 
表达 式 的 找 贝 之 后 ， 假 设 有 一 个 这 样 的 程序 点 p8， 所 有 到 达 它 的 原 有 路 
径 中 该 表达 式 都 被 预期 执行 ， 那 么 现在 该 表达 式 在 程序 点 p 上 可 用 。 可 
用 性 可 以 用 一 个 前 同 的 数据 流 分 析 过 程 完成 。 如 果 我 们 希望 把 这 个 表达 
式 放 置 在 尽量 靠 前 的 地 方 ， 我 们 只 要 找 出 满足 下 面条 件 的 程序 点 就 可 以 
了 : 在 这 些 点 上 此 表达 式 被 预期 执行 但 是 不 可 用 。 


3) 在 一 个 表达 式 最 早 被 预期 执行 的 地 方 对 表达 式 求 值 可 能 会 使 得 
表达 式 的 值 在 被 使 用 之 前 很 久 束 被 生成 了 。 一 个 表达 式 可 被 后 延 到 菜 个 
程序 点 的 条 件 如 下 : 在 到 达 这 个 点 的 所 有 路 径 上 ， 这 个 表达 式 在 这 个 程 
序 点 之 前 已 经 被 预期 执行 ， 但 是 还 没有 使 用 这 个 值 。 可 后 延 表 达 式 通过 
0 
程序 局 此 。 


4) 使 用 一 个 简单 的 逆向 数据 流 分 析 过 程 来 删除 那些 给 程序 中 只 使 
用 一 次 的 临时 变量 赋值 的 语句 。 


预 处 理 步 又 


我 们 现在 给 出 完整 的 懒惰 代码 移动 算法 。 为 了 使 算法 简单 一 些 ， 我 
们 假设 开始 时 每 个 语句 自己 组 成 一 个 基本 块 ， 而 且 我 们 只 在 基本 块 的 开 





























头 引 入 新 的 表达 陈 计 算 指 令 。 为 了 保证 这 个 简化 不 会 降低 这 个 技术 的 有 
效 性 ， 如 果 一 个 边 的 目标 结 点 有 多 个 前 驱 ， 我 们 就 在 这 个 边 的 源 结 皮 和 
i 这 么 做 显然 也 考虑 了 对 程序 中 所 有 


我 们 把 每 个 基本 块 B 的 语义 抽象 为 两 个 集合 ，e_useg 表 示 B 中 计算 的 
表达 式 ， 而 e_kills 表 示 被 B 杀 死 的 表达 式 ， 即 某 个 运算 分 量 在 B 中 定 值 的 
表达 式 的 集合 。 在 对 懒惰 代码 移动 技术 中 的 四 个 数据 流 分 析 模 式 进行 讨 
论 时 ， 将 会 一 直 使 用 例 9.30。 这 四 个 数据 流 分 析 模式 在 图 9-34 中 进行 了 
简单 的 定义 。 

园 池 在 图 9-33a 的 流 图 中 ， 表 达 式 btc 出 现 三 次 。 因 为 基本 块 Bo 是 一 
个 循环 的 一 部 分 ， 块 中 的 表达 式 b+c 可 能 被 执行 很 多 次 。 在 Be 中 对 此 表 
达 式 的 计算 不 仅 是 循环 不 变 的 ， 它 还 是 一 个 宛 余 表达 式 ， 因 为 表达 式 的 
值 已 经 在 基本 块 Bz 中 使 用 。 对 于 这 个 例子 来 说 ， 我 们 只 需要 计算 b+c 两 
次 :一 次 在 基本 块 Bs 中 计算 ， 而 另 一 次 在 Bs 之 后 到 By 之 前 的 路 径 上 计 
算 。 本 节 讨 论 的 懒惰 代码 移动 算法 将 把 表达 式 计算 放置 在 基本 块 Bu 和 Bs 
的 开头 。 
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图 9-33” 例 9. 30 的 流 图 
预期 执行 的 〈anticipated ) 表达 式 


回顾 一 下 预期 执行 的 定义 。 如 果 从 程序 点 出 发 的 所 有 路 径 最 终 都 
会 计算 表达 式 b+c 的 值 ， 并 且 计算 时 b 和 c 的 值 就 是 它们 在 点 p 上 的 值 ， 那 
么 我 们 说 表达 陈 b+c 在 程序 点 p 上 被 预期 执行 。 


在 图 9-33a 中 ， 所 有 在 其 入 口 处 预期 执行 表达 式 b+c 的 基本 块 都 用 浅 
灰色 方块 表示 。 表 达 式 b+c 在 基本 块 B;、B4、B-。、B、B> 和 Bo。 中 被 预期 
执行 。 它 在 B, 的 入 口 处 没有 被 预期 执行 ， 这 是 因为 c 的 值 在 该 基本 块 内 
被 重新 计算 ， 因 此 假如 在 B, 的 开始 处 计算 b+c 的 值 ， 这 个 计算 结果 不 会 
在 任何 路 径 上 被 使 用 。 在 Bj 的 入 口 处 也 没有 预期 执行 b+c， 因 为 在 从 B] 
到 B, 的 分 支 上 这 个 计算 是 不 必要 的 (虽然 在 路 径 B; BoBe 上 使 用 了 这 
个 计算 ) 。 类 似 地 ， 因 为 有 Be 到 Bj 的 分 支 ， 该 表达 式 也 没有 在 Be 的 开 
头 被 预期 执行 。 一 条 路 径 上 的 各 个 结 点 是 否 预期 执行 一 个 表达 式 可 能 会 
不 断交 蔡 变 化 ， 如 路 径 Bv, Be 一 Bo 所 不 。 





预期 执行 表达 式 问 题 的 数据 流 方程 组 如 图 9-34b 所 示 。 问 题 的 分 析 
过 程 是 逆向 的 。 只 有 当 一 个 表达 式 在 基本 块 B 的 出 口 处 被 预期 执行 ， 且 
它 不 在 e_killp 集 合 中 ， 那 么 它 在 基本 块 的 入 口 处 也 被 预期 执行 。 基 本 块 
B 同 时 也 生成 一 个 表达 式 集合 e_usep， 表 示 基 本 块 B 新 使 用 了 其 中 的 表达 
式 。 在 一 个 程序 的 出 口 处 没有 表达 式 被 预期 执行 。 我 们 关心 的 是 在 所 有 
后 继 路 径 中 都 被 预期 执行 的 表达 式 ， 因 此 交汇 运算 是 交集 运算 。 因 此 ， 
nn 内 部 程序 点 的 初始 值 是 表达 
二 U。 


| ”| a) 被 所 期 执行 的 表达 式 。 “| b) 可 用 表达 式 
和 


传递 fat = fB(7) = 
函数 euseB U (x — ekillsp) (anticipated[B].in U 7) — e_killp 


方程 组 IN[B] = fs(OUT[B)) oUT[B] = fs(N[B]) 
OUT[B] = 人 s ,sajIN[S] | IN[B] = Apareaka) OUTP 

前 

Jp(z) = 


(e-useB UZ) — latest[B] 


















































函数 (earliest[B] U z) 一 e-useB 


IN[B] 二 Nppread B OUuT[P] 


初始 化 ouT[B]=U 





IN[EXIT] = 0 










IN[B] = fp(ouT[B]) 
OUT[B] 一 Ns,suce(B) IN[S] 











earliest[B] = anticipated[Bl].in — available[Bl.in 
latest[B| = (earliest[B] U postponable[Bl.in) N 
(eusea U 二 (earliest[S] U postponable[S].in)) ) 


图 9-34 ”部 分 宛 余 消除 中 的 四 个 数据 流 分 析 过 程 
可 用 (avaiable)〉 表达 式 
第 二 步 之 后 ， 一 个 表达 式 的 多 个 拷贝 会 被 分 别 放 置 到 该 表达 式 首 次 


被 预期 执行 的 程序 点 上 。 这 么 做 之 后 ， 如 果 原 来 的 程序 中 所 有 到 达 程 序 
点 Pp 的 路 径 都 预期 执行 这 个 表达 式 ， 那 么 现在 这 个 表达 式 就 在 点 p 上 可 
用 。 这 个 问题 和 9.2.6 节 中 描述 的 可 用 表达 式 问题 类 似 。 但 是 这 里 使 用 的 
传递 函数 略 有 个 同 。 一 个 表达 式 在 一 个 基本 块 的 出 口 处 可 用 的 条 件 有 两 
[Ss 


1) 下 列 条 件 之 一 成 立 
@ 在 入 口 处 可 用 。 


地 在 基本 块 的 入 口 处 所 预期 执行 的 表达 式 集 合 中 《 即 如 果 我 们 选 
择 在 入 口 处 计算 这 个 表达 式 ， 它 就 会 在 入 口 处 变 得 可 用 )。 


2) 没有 被 这 个 基本 块 杀 死 。 

用 于 可 用 表达 式 的 数据 流 方程 组 如 图 9-34b 所 示 。 为 了 避免 混 消 IN 
的 含义 ， 我 们 在 数据 流 分 析 问 题 的 名 字 后 加 上 ”“[B] .ip”， 以 这 个 方式 
来 表示 茶 次 分 析 所 得 到 的 结果 。 


依据 最 前 放置 的 策略 而 在 一 个 基本 块 B 上 放置 的 表达 式 的 集合 ( 即 
earliest [B] ) 被 定义 为 被 预期 执行 但 不 可 用 的 表达 式 集 合 ， 即 


earliest [LB | =anticipated LB] .in-available [LB | .in. 


图 9-35 的 流 图 中 表达 式 b+c 在 基本 块 B3 的 入 口 点 没有 被 预期 执 
行 ， 但 是 在 基本 块 B4 的 入 口 处 被 预期 执行 。 然 而 ， 没 有 必要 在 基本 块 B4 
中 计算 表达 式 b+c， 因 为 B> 使 得 表达 式 b+c 在 此 处 变 得 可 用 。 














图 9-35 例 9. 31 的 流 图 ， 用 以 说 明 可 用 表达 式 的 使 用 

图 9-33a 中 市 有 黑色 阴影 的 各 个 基本 块 上 的 表达 式 b+c 不 可 用 ， 
这 旦 基本 块 是 Bl1|、B，、B3 和 Bs。 该 表达 式 的 徘 前 放置 的 位 置 使 用 带 有 黑 
色 阴 影 的 灰色 方块 表示 ， 它 们 是 B3 和 Bs。 请 注音，b+c 被 认为 在 Bs 的 入 
口 处 可 用 ， 因 为 在 一 条 路 径 B; -Bs 一 B3 一 Bs 中 ，b+tc 至 少 被 预期 执行 一 
次 一 一 在 这 个 例子 里 是 Bs 一 一 并 且 从 B3 的 入 口 点 开始 ，b 和 c 都 没有 被 重 
新 计算 。 











2x2 方 块 的 补 全 
被 预期 执行 的 表达 式 〈 其 他 文献 中 也 称 之 为 “很 从 的 表达 了 式 ”) 是 





一 类 我 们 之 前 没有 看 到 的 数据 流 分 析 。 虽 然 我 们 已 经 看 到 了 活跃 变量 
分 析 〔 见 9.2.5 市 ) 这 样 的 逆 回 框架 ， 且 我 们 看 到 了 可 用 表达 式 分 析 

(9.2.6 记 ) 那样 使 用 交集 运算 作为 交汇 运算 的 框架 。 这 是 第 一 个 具有 
这 两 个 特点 的 有 用 分 析 技 术 的 例子 。 几 乎 我 们 使 用 的 所 有 分 析 技 术 都 
可 以 放 到 四 个 分 组 中 的 某 一 个 中 。 这 四 个 组 按照 下 面 的 方法 进行 刻 

划 : 它们 是 前 向 的 还 是 逆 同 的 ， 它 们 是 使 用 并 集运 算 还 是 交集 运算 作 
为 交汇 运算 〔 可 以 按照 这 两 个 特性 的 不 同 取 值 把 各 个 数据 流 分 析 模 式 
分 别 放 到 一 个 2x2 方 块 中 的 某 个 空格 中 ， 而 本 节 的 分 析 技 术 填 补 了 方 
阵 中 的 一 个 空格 ， 译 者 注 ) 。 同 时 请 注意 ， 使 用 并 集 的 分 析 总 是 涉及 
是 否 存 在 一 条 路 径 使 得 某 件 事情 为 真 ， 而 使 用 交集 的 分 析 考 虑 的 是 某 
些 事 情 是 否 对 于 所 有 的 路 人 径 部 为 真 。 














可 后 延 (postponable) 表达 式 


算法 的 第 三 步 在 保持 原 程序 语义 并 将 见 余 最 小 化 的 情况 下 把 表达 式 
的 计算 尽量 地 延 后 。 例 9.33 说 明了 这 个 步 又 的 重要 性 。 


在 图 9-36 所 示 的 流 图 中 ， 表 达 式 b+c 在 路 径 B1 -Bs Be 一 Bz 中 
被 计算 两 次 。 表 达 式 b+c 甚 至 在 基本 块 B1 的 开头 就 被 预期 执行 了 。 如 果 
我 们 在 表达 式 被 预期 执行 的 时 候 立刻 计算 它 的 值 ， 那 么 我 们 就 要 在 Bi 中 
计算 b+c 的 值 。 计 算 结果 将 在 一 开始 就 被 保存 起 来 ， 经 过 由 基本 块 B、 
B3 组 成 的 循环 的 执行 ， 最 后 由 基本 块 By 使 用 。 在 另 一 种 方法 中 ， 我 们 可 
以 把 表达 式 b+c 的 计算 推迟 到 Bs 的 开始 以 及 控制 流 即将 从 B4 到 达 B7 的 时 
候 。 





图 9-36 例 9. 33 的 流 图 ， 用 以 说 明 后 延 一 个 表达 式 的 需求 


正式 地 讲 ， 一 个 表达 式 x+y 可 后 延 到 程序 点 p 的 前 提 如 下 : 在 所 有 从 
程序 入 口 结 点 到 达 p 的 路 径 中 都 会 碰 到 一 个 位 置 较 前 的 x+y， 并 且 在 最 后 
一 个 这 样 的 位 置 到 p 之 间 没 有 对 x+y 的 使 用 。 


四 | 让 我 们 再 次 考虑 图 9-33 中 的 表达 式 b+c。 其 中 可 放置 b+c 的 两 个 
最 而 的 点 是 B3 和 Bs。 请 注意 ， 这 两 个 基本 块 在 图 9-33a 中 都 被 表示 为 带 
有 黑色 阴影 的 灰色 方块 ， 这 表示 在 且 只 在 这 两 个 基本 块 上 b+c 被 预期 执 
行 但 不 可 用 。 我 们 不 能 把 b+c 从 Bs 后 延 到 B6， 因 为 b+c 在 Bs 中 被 使 用 了 。 
但 是 我 们 可 以 把 它 从 Ba 后 延 到 B4。 





但 是 ， 我 们 不 能 把 b+c 从 B4 后 延 到 By。 原 因 是 虽然 b+c 在 B4 中 没有 使 
用 ， 把 它 放 到 By 中 而 不 是 B4 中 会 引起 路 径 Bs Be 一 By 上 的 见 余 计算 。 
我 们 将 看 到 ，B4 是 我 们 能 够 计算 b+c 的 最 后 位 置 之 一 。 


可 后 延 表 达 式 问题 的 数据 流 方程 组 如 图 9-34c 所 示 。 这 个 分 析 过 程 


是 前 同 的 。 我 们 不 能 把 一 个 表达 式 “ 后 延 * 到 程序 的 入 口 处 ， 因 此 

OUT [ENTRY] =f1。 如 果 一 个 表达 式 在 B 中 没有 使 用 ， 且 和 它 可 以 后 延 
到 B 的 入 口 处 ， 或 者 它 在 earliest [Bj] 中 ， 那 么 它 就 可 以 被 后 延 到 B 的 出 
口 处 。 除 非 一 个 基本 块 的 所 有 前 驱 结 点 出 口 处 的 可 后 延 集合 中 都 包含 某 
个 表达 式 ， 人 否则 该 表达 式 不 能 被 后 延 到 这 个 基本 块 的 入 口 处 。 因 此 ， 这 
个 数据 流 分 析 的 交汇 运算 是 交集 运算 ， 并 且 各 个 内 部 程序 点 必须 被 初始 
化 为 相应 半 格 的 顶 元 素 一 一 全 集 。 


粗略 地 说 ， 一 个 表达 式 将 被 放置 在 边界 上 ， 即 一 个 表达 式 从 可 后 延 
转变 成 为 不 可 后 延 的 地 方 。 更 加 明确 地 说 ， 表 达 式 e 可 以 被 放置 在 基本 
块 B 的 开始 处 的 前 提 条 件 是 该 表达 式 在 B 入 口 处 的 earliest 集 合 或 可 后 延 
集合 中 。 男 外 ， 当 下 列 条 件 之 一 成 立时 ，B 在 e 的 后 延边 界 中 : 


1) e 不 在 集合 postponable [Bj」 .out 中 。 换 人 句 话说 ，e 在 e_usep 中 。 


2) e 不 能 和 伞 后 延 到 B 的 某 个 后 继 基本 块 。 换 句 话 说 ， 存 在 一 个 B 的 
后 继 基本 块 使 得 e 不 在 该 后 继 入 口 处 的 earliest 集 合 和 可 后 延 集合 中 。 


因为 在 算法 的 预 处 理 阶 段 引 入 了 新 的 基本 块 ， 所 以 在 上 述 两 种 情形 
中 ， 表 达 式 e 可 以 放 在 基本 块 B 的 前 面 。 


图 9-33b 显 示 了 上 述 分 析 的 结果 。 其 中 的 灰色 方块 表示 了 相应 
earliest 集 合 中 包含 b+c 的 基本 块 ， 而 黑色 阴影 的 方块 表示 了 相应 可 后 延 
集合 中 包含 b+c 的 基本 块 。 因 此 ， 表 达 式 b+c 的 最 后 放置 位 置 在 基本 块 B， 
和 B。 的 入 口 处 ， 这 是 因为 





























1) b+c 在 B4 的 可 后 延 集 合 中 ， 但 是 不 在 By 的 可 后 延 集中 ， 并 且 
2) B5 的 earliest 集 合 包含 了 b+c， 并 且 它 使 用 了 b+c。 


如 图 所 示 ， 该 表达 式 的 值 在 基本 块 By 和 Bs 中 被 存放 到 临时 变量 t 
中 ， 在 任何 其 他 地 方 的 b+c 都 被 蔡 换 为 t。 


被 使 用 的 (used) 表达 式 


最 后 ， 用 一 个 逆 回 分 析 过 程 来 确定 一 个 被 引入 的 临时 变量 是 否 在 它 
所 在 基本 块 之 外 的 其 他 地 方 使 用 。 如 果 从 程序 点 p 出 发 的 一 条 路 径 在 表 











达 式 被 重新 求 值 之 前 使 用 了 该 表达 式 ， 那 么 我 们 说 该 表达 式 在 把 p 上 被 
We 
言 ) 。 

被 使 用 的 表达 式 问题 的 数据 流 方 程 组 如 图 9-34d 所 示 。 这 个 分 析 过 
程 是 逆 同 的 。 如 果 一 个 在 基本 块 B 的 出 口 点 锐 使 用 的 表达 式 不 在 B 的 最 
后 放置 (latest) 集合 中 ， 那 么 它 也 是 一 个 在 B 的 入 口 点 处 被 使 用 的 表达 
式 。 一 个 基本 块 生 成 了 e_usep 集 合 中 的 全 部 表达 式 ， 就 是 说 新 近 使 用 了 
这 些 表 达 式 。 在 程序 的 出 口 处 没有 表达 式 被 使 用 。 因 为 我 们 关心 的 是 找 
出 被 任何 后 续 路 径 所 使 用 的 表达 式 ， 因 此 这 个 问题 的 交汇 运算 是 并 集运 
算 。 因 此 ， 各 个 内 部 点 必须 被 初始 化 为 相应 的 半 格 的 顶 元 素 一 一 衬 集 。 


综合 全 部 步 台 
本 算法 的 各 个 步骤 在 算法 9.36 中 进行 了 汇总 。 
懒惰 代码 移动 。 


输入 : 一 个 流 图 ， 其 中 每 个 基本 块 B 的 e_usep 和 e_killg 已 经 计算 得 
到 了 。 


输出 : 一 个 经 过 修改 且 满 足 9.5.3 节 所 描述 的 懒惰 代码 移动 的 四 个 条 
件 的 数据 流 图 。 


方法 : 
Et 





2) 按照 9-34a 中 的 定义 ， 计 算出 所 有 基本 块 B 的 anticipated [Bj] .in 
值 。 
3) 按照 9-34b 中 的 定义 ， 计 算出 所 有 基本 块 B 的 available [Bj] .in 的 
值 。 


4) 为 每 个 基本 块 B 计 算 它 的 最 早 放 置 位 置 ; 


earliest [B] =anticipated [B] .in-available [B| .in 


5) 按照 图 9-34c 的 定义 ， 计 算出 所 有 基本 块 B 的 postponable [Bj] .in 
值 。 





6) 计算 所 有 基本 块 B 的 最 后 放置 集合 : 


latest[ B| = (earliest[ B | Uposiponable[ BJ].in) NN 


(e_usep MN” 人 | Bp] 中 (earliestl S| Upostponable[ S]. in) )) 


请 注意 ， 其 中 的 -表示 的 是 以 程序 中 所 计算 的 全 部 表达 式 的 集合 作 
为 全 集 的 补 集运 算 。 


7) 按照 图 9-34d 中 的 定义 ， 找 到 所 有 基本 块 B 的 used LBj」 .out 值 。 
8) 对 于 程序 计算 的 每 个 表达 式 ， 比 如 x+y， 做 下 列 处 理 : 
Q 为 x+y 创 建 一 个 新 的 临时 变量 ， 比 如 说 t。 


@) 对 于 所 有 基本 块 B， 如 果 x+y 在 latest LB] nused [Bj] .out 中 ， 就 
把 tx+y 加 入 到 B 的 开头 。 


(B 对 于 所 有 基本 块 B， 如 果 x+y 在 集合 e usepn (-latest [B] 
Uused.out LB] ) 中 ， 就 用 t 来 蔡 换 原来 的 每 个 x+y。 





总 结 
部 分 见 余 消除 技术 用 统一 的 算法 归纳 出 不 同类 型 的 元 余 计 算 。 这 个 
算法 说 明了 如 何 使 用 多 个 数据 流 问 题 来 寻找 最 优 的 表达 式 位 置 。 


1) 有 关 位 置 的 约束 由 预期 执行 表达 式 分 析 提 供 。 预 期 执行 表达 式 
分 析 是 一 个 逆 同 的 数据 流 分 析 ， 并 使 用 交集 运算 作为 交汇 运算 。 因 为 它 
1 定 的 是 对 于 各 个 程序 点 ， 一 个 表达 式 是 否 在 该 点 之 后 的 所 有 路 径 中 被 
用 。 


2) 一 个 表达 式 的 最 前 放置 位 置 束 是 该 表达 式 在 其 上 被 预期 执行 但 
又 不 可 用 的 程序 点 。 可 用 表达 式 是 通过 一 个 前 向 数据 流 分 析 找 到 的 ， 它 
使 用 交集 运算 作为 交汇 运算 。 对 各 个 程序 点 ， 这 个 数据 流 分 析 技 术 计算 
了 一 个 表达 式 是 售 在 所 有 路 径 中 都 在 该 点 之 前 被 预期 执行 。 








3) 一 个 表达 式 的 最 后 放置 位 置 束 是 该 表达 陈 在 其 上 不 可 再 后 延 的 
程序 点 。 如 果 到 达 一 个 程序 点 的 所 有 路 径 都 没有 碰 到 某 个 表达 式 ， 那 么 
该 表达 式 在 此 程序 点 上 可 以 后 延 。 可 后 延 表 达 式 是 通过 一 个 前 向 的 数据 
流 分 析 技 术 找 到 的 ， 这 个 分 析 技 术 使 用 交集 运算 作为 交汇 运算 。 

4) 除非 一 个 临时 赋值 语句 被 其 后 的 某 条 路 径 使 用 ， 否 则 该 赋值 语 
句 可 以 被 消除 。 我 们 通过 一 个 逆向 的 数据 流 分 析 来 发 现 被 使 用 的 表达 
式 ， 它 使 用 并 集运 算 作为 交汇 运算 。 





9.5.6 ”9.5 节 的 练习 


练习 9.5.1: 对 于 图 9-37 中 的 流 图 : 





图 9-37 练习 9.5.1 的 流 图 


1) 计算 各 个 基本 块 的 开头 和 结尾 的 预期 执行 的 (anticipated) 表达 


式 集合 。 

2) 计算 各 个 基本 块 的 开头 和 结尾 的 可 用 〈available) 表达 式 集 合 。 
3) 计算 各 个 基本 块 的 earliest 集 合 。 

4) 计算 各 个 基本 块 的 开头 和 结尾 的 可 后 延 (postponable) 表达 式 


5) 计算 各 个 基本 块 的 开头 和 结尾 的 被 使 用 的 “used) 表达 式 集 


> 


6) 计算 各 个 基本 块 的 latest 集 合 。 
7) 引入 临时 变量 t， 指 出 它 在 什么 地 方 被 计算 ， 并 在 什么 地 方 被 使 


练习 9.5.2: 对 于 图 9-10 中 的 流 图 〈 见 9.1 节 的 练习 ) 重复 练习 9.5.1。 
你 可 以 只 分 析 表 达 式 a+b、c-a 和 bx*d。 


! ! 练习 9.5.3: 在 本 节 中 讨论 的 概念 也 可 以 应 用 到 部 分 死亡 代码 的 
消除 。 如 果 一 个 变量 的 定 值 仅仅 对 于 部 分 路 径 活 跃 ， 但 对 于 其 他 路 径 是 
死亡 的 ， 那 么 这 个 定 值 就 是 部 分 死亡 的 〈partially dead) 。 我 们 可 以 只 
在 该 变量 活跃 的 路 径 上 执行 这 个 定 值 ， 从 而 优化 这 个 程序 的 执行 效率 。 
在 消除 部 分 元 余 时 ， 表 达 式 被 移动 到 原来 的 表达 式 之 前 ， 和 消除 部 分 元 
余 相 反 ， 部 分 死亡 代码 消除 中 新 的 定 值 被 放 在 原来 的 定 值 之 后 。 设 计 一 
ee 使 得 表达 式 只 在 一 定 会 被 使 用 时 才 进 行 求 














9.6 流 图 中 的 循环 


在 至 今 为 止 的 讨论 中 ， 循 环 并 没有 说 区别 对 等 ， 对 它们 的 处 理 方式 
和 其 他 类 型 的 控制 流 没 有 什么 不 同 。 但 是 ， 循 环 的 重要 性 在 于 程序 花费 
大 部 分 时 间 来 执行 循环 ， 改 进 循环 效率 的 优化 有 很 大 的 影响 。 因 此 ， 识 
别 循环 并 有 针对 性 地 处 理 它们 是 很 重要 的 。 


循环 也 会 影 啊 程序 分 析 所 需 的 时 间 。 如 果 一 个 程序 不 包含 任何 循 
环 ， 我 们 只 需要 对 程序 进行 一 趟 扫描 就 可 以 得 到 数据 流 问 题 的 答案 。 比 
如 ， 一 个 前 辐 数 据 问 题 只 需要 按照 拓扑 次 序 对 所 有 的 结 点 进行 一 次 访问 
就 可 以 解决 。 


在 这 一 节 中 ， 我 们 将 介绍 下 列 概念 : 文 配 结 点 、 深 度 优 先 排序 、 回 
边 、 图 的 深度 和 可 归 约 性 。 我 们 在 后 面 进 行 的 对 寻找 循环 及 迭代 式 数据 
流 分 析 的 收敛 速度 的 讨论 中 需要 用 到 这 些 概念 。 








9.6.1 ”支配 结 点 


如 果 每 一 条 从 流 图 的 入 口 结 点 到 结 点 n 的 路 人 径 都 经 过 结 点 d， 我 们 就 
说 d 支 配 (dominate) n， 记 为 d dom n。 请 注意 ， 在 这 个 定义 下 每 个 结 点 
灾 本 信 目 已 。 


考虑 图 9-38 中 的 以 结 点 1 作为 入 口 结 点 的 流 图 。 入 口 结 点 支配 

结 点 《这 个 结论 对 所 有 的 流 图 都 成 立 ) 。 结 点 2 只 能 支配 它 自己 ， 
因为 控制 流 可 以 通过 以 1-3 开 头 的 路 径 到 达 所 有 其 他 结 点 ， 所 以 结 点 3 
支配 除 1、2 之 外 的 所 有 结 点 。 结 点 4 支配 除 1、2、3 之 外 的 所 有 其 他 结 
点 ， 因 为 所 有 从 1 开始 的 路 径 的 开头 要 么 是 1 2 3-4， 要 么 是 
1 3 一 4。 结 点 5 和 6 都 只 支配 它们 自身 ， 因 为 控制 流 可 以 选择 从 它们 中 
的 某 一 个 结 点 通过 ， 从 而 绕 过 男 一 个 结 点 。 最 后 ， 结 点 7 支配 结 点 7、 
8、9、10; 结 点 8 支配 结 点 8、9、10; 9 和 10 只 支配 它们 自身 。 


























图 9-38 ”一 个 流 图 


一 种 有 用 的 表示 支配 结 点 信息 的 方法 是 用 所 谓 的 支配 结 点 树 
(dominator tree) 来 表示 。 在 树 中 ， 入 口 结 点 就 是 根 结 点 ， 并 且 每 个 结 
点 d 只 支配 它 在 树 中 的 后 代 结 点 。 比 如 ， 图 9-39 显 示 了 图 9-38 中 流 图 的 支 
配 结 点 树 。 








a 
太 


图 9-39 ”图 9-38 中 流 图 的 支配 结 点 树 


支配 结 点 的 一 个 性 质 决 定 了 一 定 存 在 支配 结 点 树 : 每 个 结 点 n 具 有 
唯一 的 直接 支配 结 点 (immediate dominator) m。 在 从 入 口 结 点 到 达 结 
点 n 的 任何 路 径 中 ， 它 是 n 的 最 后 一 个 支配 结 点 。 用 dom 关 系 来 表示 ,，n 
的 直接 支配 结 点 m 具 有 以 下 性 质 : 如 果 dzn 晶 d domn， 那 么 d dom m。 


我 们 将 给 出 一 个 简单 的 算法 来 计算 流 图 中 各 个 结 点 n 的 所 有 支配 结 
点 。 这 个 算法 基于 如 下 原理 :如 果 p1，p2，.….，Px 是 n 的 所 有 前 驱 并 且 
dzn， 那 么 d dom n 当 且 仅 当 对 于 每 个 ，d dom Pi。 这 个 问题 可 以 写成 一 
个 前 向 数据 流 分 析 问 题 。 数 据 流 的 值 域 是 基本 块 的 集合 。 一 个 结 点 的 文 
配 结 点 集合 ( 它 自 己 除外 〉 是 它 的 所 有 前 驱 的 支配 结 点 的 交集 ; 因此 这 
个 问题 的 交汇 运算 是 交集 运算 。 i 
到 输入 结 点 集合 中 。 问 题 的 边界 条 件 是 ENTRY 结 点 支配 它 自 吴 。 
后 ， 内 部 结 点 的 初始 值 是 全 集 ， 也 就 是 所 有 结 点 的 集合 。 


寻找 支配 结 点 。 


输入 : 一 个 流 图 G，G 的 结 点 集 是 N， 边 集 是 E， 而 入 口 结 点 是 
ENTRY。 


人 输出; 对 于 N 中 的 各 个 结 点 na， 给 出 D Cn) ， 即 支配 an 的 所 有 结 点 的 




















方法 : 求 出 由 图 9-40 给 定 参 数 的 数据 流 问题 的 解 。 输 入 流 图 的 基本 
块 就 是 结 皮 。 对 于 N 中 的 所 有 结 扣 n,D (Cn) =OUT [nj 


WR 


前 向 


人 Jp(z)=zZU{TB} 


人 OUT[ENTRY] = {ENTRY} 

















ET Im 
Re ev fp(IN[B)) 






= peea B) OUTIP] 





初始 化 设置 


图 9-40 一 个 计算 支配 结 点 的 数据 流 算法 








使 用 这 个 数据 流 算 法 来 寻找 支配 结 点 很 蜗 效 。 我 们 将 在 9.6.7 市 看 
到 ， 只 要 对 流 图 中 的 结 点 进行 几 次 访问 就 可 以 得 到 问题 的 解 。 





关系 dom 的 性 质 


有 天文 配 络 点 的 一 个 关键 性 质 是 如 果 我 们 从 入 口 结 点 沿 着 一 个 无 
环 路 径 到 达 结 点 9"， 那 么 n 的 所 有 文 配 结 点 都 出 现在 这 条 路 径 中 ， 并 且 
它们 总 是 以 相同 顺序 出 现在 所 有 这 样 的 路 径 中 。 为 了 说 明 原 因 ， 假 设 
在 一 个 到 达 n 的 无 环 路 径 P1 中 文 配 结 点 a 和 b 的 顺序 为 先 a 后 bp， 而 在 男 
一 条 路 径 Pz 中 b 在 a 之 前 。 那 么 我 们 可 以 治 着 Pi 到 达 a 然 后 再 沿 着 P? 到 


达 n， 从 而 避 开 了 b。 因 此 ，b 实 际 上 不 文 配 n。 


通过 这 个 推理 过 程 ， 我 们 可 以 证 明 dom 是 传递 的 : 如 果 a dom b 并 
日 b dom c， 那 么 a dom c。 关 系 dom 也 是 反对 称 的 : 如 果 azb， 那 么 a 
dom b 和 b dom a 不 可 能 同时 成 立 。 而 且 ， 如 果 a 和 b 是 n 的 两 个 支配 结 
点 ， 那 么 a dom b 或 b dom a 中 必然 有 一 个 成 立 。 最 后 可 以 推出 除了 入 
口 结 点 之 外 的 每 个 结 点 n 必 然 有 一 个 唯一 的 直接 支配 结 点 ， 即 在 从 入 
口 结 点 到 n 的 任何 无 环 路 径 中 出 现 的 离 n 最 近 的 文 配 结 点 。 








区 让 我 们 回顾 一 下 图 9-38 中 的 流 图 ， 并 假设 图 9-23 中 第 〈4) 到 
6) 行 的 for 循 环 依照 数字 顺序 访问 其 结 点 。 令 D Cn) 为 OUT [nj] 中 
的 结 点 的 集合 。 因 为 1 是 入 口 结 点 ， 算 法 的 第 一 行 首先 把 {1} 赋 给 

D (1) 。 结 点 2 的 前 驱 只 有 1， 因 此 D (2) = {2} UD (1) 。 这 样 

D (2) 就 被 设置 为 {1，2} 。 然 后 考虑 结 点 3， 它 的 前 驱 是 1、2、4 和 
8。 因 为 所 有 内 部 结 点 的 值 都 被 初始 化 为 结 点 的 全 集 N， 


D (3)={(3+UC 人 nn{tL 2} n {1, 2, ..., 10} Nn {1, 2, ..., 
10} ) = {1，3} 


其 余 的 计算 过 程 如 图 9-41 所 示 。 因 为 在 图 9-23a 中 ， 第 (3) 到 (6) 行 的 
外 层 循 环 的 第 二 次 迭代 中 这 些 值 不 再 改变 ， 它 们 就 是 这 个 支配 结 点 问题 
的 最 终 答 案 。 








局 


4} U (D(3) N D(7)) = {4} LU ({1,3}n {1,2,... ,10)) = {1,3,4} 


{ 

hd {5} U {1,3,4} = {1, 3, 4, 5} 

{6} U D(4) = {6} U {1,3,4} = {1,3,4,6} 

{7} U (D(5) N D(6) N D(10)) 

= 7 U(r ,3467 {1 2,... .10 = {L547 
D8) = 0 VDD = BU fT 
D(9) = {9} LU D(8) = {9} u {1,3,4,7,8} = {1,3, 4,7, 8,9} 

Dll an ) = {10} U {1,3,4,7,8} = {1,3,47,8,10} 


包 


和 
OO 
er 


~ 


名 








图 9-41 例 9. 39 中 支配 结 点 计算 的 最 终结 


9.6.2 ”深度 优先 排序 


如 2.3.4 市 中 所 介绍 的 ， 对 一 个 流 图 的 深度 优先 搜索 (depth-first 
search) 逐一 访问 图 的 所 有 结 点 。 搜 索 过 程 从 入 口 结 点 开始 ， 并 首先 访 
问 离 入 口 结 点 最 远 的 结 点 。 一 个 深度 优先 过 才 程 中 的 搜索 路 线形 成 了 一 个 
深度 优先 生成 树 CDepth-First Spanning Tree，DEFST) 。2.3.4 节 介绍 过 ， 
一 个 先 序 过 宇 历 过 程 首先 访问 一 个 结 点 ， 然 后 从 左 到 右 递归 地 访问 该 结 旧 
的 子 结 点 。 另 外 ， 一 个 后 序 届 有 历 过 程 首 先 递归 地 从 左 到 右 访问 一 个 结 点 
的 子 结 点 ， 然 后 访问 该 结 点 本 身 。 


还 有 一 种 排序 方式 对 于 流 图 分 析 很 重要 : 深度 优先 排序 〈depth-first 
也 就 是 说 ， 在 深度 
优先 排序 中 ， 我 们 首先 访问 一 个 结 点 ， 然 后 遍历 该 结 点 的 最 右 子 结 点 ， 
再 遍历 这 个 子 结 点 左边 的 子 结 点 ， 依 此 类 推 。 但 是 在 我 们 为 流 图 构造 生 
成 树 之 前 ， 我 们 可 以 选择 把 一 个 结 点 的 哪个 后 继 作 为 它 在 树 中 的 最 右 子 

结 点 ， 再 选择 哪个 后 继 是 下 一 个 子 结 点 ， 等 等 。 在 我 们 给 出 深度 优先 排 
序 的 算法 之 前 ， 首 先 考虑 一 个 例子 。 


图 9-38 中 流 图 的 一 个 可 能 的 深度 优先 表示 法 如 图 9-42 所 示 。 实 

成 了 这 棵 树 ， 虚 线 边 是 流 图 中 其 他 的 边 。 这 棵 树 的 深度 优先 遍历 

是 13-4-6-7-8-10， 然 后 回 到 8， 再 到 9。 我 们 再 一 次 回 到 8， 再 

回 到 7、6 和 4， 然 后 前 进 到 5。 我 们 从 5 回 到 4， 然 后 回 到 3 和 1。 我 们 从 1 
前 进 到 2， 然 后 从 2 回 到 1。 这 样 我 们 就 遍历 了 整 棵 树 。 


因此 ， 这 次 过 历 的 前 序 序列 是 : 

















本 
图 9-42 中 树 的 后 序 过 有 历 顺 序 是 : 

1 ‘92 8 77200 ds Bi 2 1 
深度 优先 排序 的 顺序 和 后 序 遍 历 序列 相反 ， 即 

1 27 Bd 5 07 77; 8 9;°10 
现在 我 们 给 出 一 个 算法 来 寻找 一 个 流 图 的 深度 优先 生成 树 和 相应 的 


深度 优先 排序 。 正 是 这 个 算法 从 图 9-38 的 流 图 中 找到 了 图 9-42 中 的 
DFST。 





图 9-42 ”图 9-38 中 流 图 的 一 个 深度 优化 表示 
深度 优先 生成 树 和 深度 优先 排序 。 
输入 : 一 个 流 图 G。 
输出 : G 的 一 个 DFST 树 T 和 G 中 结 点 的 一 个 深度 优先 排序 。 


方法 : 我 们 使 用 图 9-43 的 递归 过 程 search Cn) 。 这 个 算法 首先 把 G 
的 所 有 结 点 初始 化 为 “unvisited”， 然 后 调用 search Cno) ， 其 中 no 是 入 口 
结 点 。 当 它 调用 search (n) 的 时 候 ， 首 先 把 n 标 记 为 “visited”， 以 免 把 n 


再 次 加 入 到 树 中 。 它 使 用 c 作 为 计数 项， 从 G 的 结 点 总 数 一 直 倒 计 数 到 
1。 在 算法 执行 的 时 候 把 c 的 值 赋 给 结 点 na 的 深度 优先 编号 dfn [nj 。 边 
的 集合 IT 形成 了 G 的 深度 优先 生成 树 。 


void search(n) { 
将 nn 标记 为 “visited”: 
for (n 的 各 个 后 继 s) 
让 (s 标记 为 "unvisited”) { 
将 边 即 一 3 加 入 到 了 中 ; 
search!(s); 
} 
dfnln| = ci 
c=c—1; 


} 


main() { 
T= 8; /* 边 集 */ 
for (G 的 各 个 结 点 7) 
把 名 标记 为 “unvisited”; 
Cc 三 G 的 结 点 个 数 ; 


search(no); 





图 9-43 ”深度 优先 搜索 算法 


对 于 图 9-42 中 的 流 图 ， 算 法 9.41 把 c 设 置 为 10， 并 调用 
search (1) 开始 搜索 。 其 余 的 执行 序列 显示 在 图 9-44 中 。 





调用 search(1) 


调用 search(3) 
调用 search(4) 


调用 search(6) 
调用 search(7) 
调用 search(8) 


调用 search(10) 


回 到 search(8) 
调用 search(9) 


回 到 search(8) 


回 到 search(7) 
回 到 search(6) 
回 到 search(4) 
调用 search(5) 
回 到 search(4) 
回 到 search(3) 
回 到 search(1) 


调用 search(2) 
回 到 search(1) 


结 点 1 有 两 个 后 继 。 假 设 首先 考虑 s = 3， 

把 边 1 3 加 入 到 工 中 。 

把 边 3 一 4 加 入 到 工 中 。 

结 点 4 有 两 个 后 继 ，4 和 6 。 假 设 首先 考虑 s=6 ， 
把 边 4 一 6 加 入 到 工 中 。 

把 边 6 一 7 加 入 到 工 中 ，。 

结 点 7 有 两 个 后 继 结 点 4 和 8 。 但 是 4 已 经 被 search(4) 
标记 为 “visited”， 因 此 当 s = 4 时 不 做 任何 处 理 。 
对 于 s = 8， 把 边 7 一 8 加 入 到 人 中。 

结 点 8 有 两 个 后 继 ，9 和 10 。 假 设 首先 考虑 s =10， 
把 边 8 一 10 加 入 到 下 中 。 

10 有 后 继 7 ， 但 是 7 已 经 被 标记 为 “visited”。 

因此 search(10) 设置 dfn[10] = 10, c = 9 并 结束 。 
把 s 设置 为 9 ， 并 把 边 8 一 9 加 入 到 下 中 。 

9 的 唯一 后 继 1 已 经 被 设置 为 “visited ”， 

因此 设置 dfn[9| =9,c=9， 

8 的 最 后 一 个 后 继 3 已 经 是 “visited ”， 因 此 

不 处 理 s = 3 的 情况 。 到 此 为 止 , 8 的 所 有 后 继 

都 已 经 处 理 过 了 ， 因 此 设置 dfn[8] = 8 ,c=7。 

7 的 所 有 后 继 都 已 经 处 理 过 了 ,因此 设置 

dfnl7|=7 ,c= 6, 

6 的 所 有 后 继 都 已 经 处 理 过 了 ,因此 设置 

dfnl6] =6 ,c= 5., 

4 的 后 继 3 已 经 是 “visited ”， 但 是 5 还 没有 ， 

因此 把 边 4 一 5 加 入 到 树 中 。 

5 的 后 继 7 已 经 是 “visited ”， 因 此 设置 dfn[5] = 5 ， 
[s 


4 的 所 有 后 继 都 已 经 处 理 过 了 ， 因 此 设置 dfn[4= 4 ， 
c=3 





设置 dfnl3] = 3,c= 2。 
2 尚未 被 处 理 ， 因 此 把 边 1 一 2 加 入 到 工 中 。 
设置 dfn[2] =2,c=1，。 
设置 dfn[1] =1,c=0。 





图 9-44 算法 9. 41 在 图 9-42 的 流 图 上 执行 的 过 程 


9.6.3 ”深度 优先 生成 树 中 的 边 
当 我 们 为 一 个 流 图 构造 DFST 时 ， 流 图 的 边 可 以 被 分 为 三 大 类 : 


1) 前 进 边 (advancing edge) ， 即 那些 从 一 个 结 点 mm 到 达 m 在 树 中 
的 一 个 真 后 代 结 点 的 边 。DFST 中 的 所 有 边 本 里 都 是 前 进 边 。 在 图 9-42 
中 没有 其 他 的 前 进 边 。 但 是 ， 假 如 有 一 条 边 4-8， 那 么 这 条 边 就 是 前 进 








1s 


2) 有 些 边 从 一 个 结 点 m 到 达 m 在 树 中 的 某 个 祖先 (包括 m 自 里 ) ， 
我 们 将 把 这 些 边 称 为 后 退 边 (retreating edge) 。 比 如 ， 图 9-42 中 的 
4-3、7 一 4、8 3、10 7 和 9 1 都 是 后 退 边 。 


3) 对 于 有 些 边 m,n， 在 DFST 中 m 和 n 都 不 是 对 方 的 祖先 。 边 2 3 
和 5 -7 是 图 9-42 中 这 种 边 的 例子 。 我 们 把 这 种 边 称 为 交叉 边 (cross 
edge) 。 交 叉 边 的 一 个 重要 性 质 是 : 如 果 我 们 把 一 个 结 点 的 子 结 点 按照 
它们 被 加 入 到 树 中 的 顺序 从 左 到 右 排 列 ， 那 么 所 有 的 交叉 边 都 是 从 右 到 


左 尼 








应 该 注意 ， 边 mn 是 一 个 后 退 边 当日 仪 当 dfn Lmj >dfn [nj」 。 为 
了 说 明 原 因 ， 请 注意 如 果 m 是 n 在 DFST 中 的 一 个 后 代 ， 那 么 search (m) 
在 search (n) 之 前 运行 结束 ， 因 此 dfn Lmj]」 >dfn [nj 。 反 过 来 ， 如 果 
dfn [mj] >dfn Ln] ， 那 么 要 么 search (m) 在 search Cn) 之 前 结束 ， 要 
么 m=n。 但 是 如 果 有 一 条 边 mn， 那 么 search Cn) 必须 在 search (m) 
之 前 开始 ， 盏 则 n 是 m 的 后 继 的 事实 将 使 得 m 成 为 n 在 DFST 中 的 一 个 后 
代 。 因 此 ，search (m) 运行 的 时 间 是 search \n) 运行 时 间 中 的 一 个 区 
间 ， 由 此 我 们 可 以 知道 np 是 m 在 DFST 中 的 一 个 祖先 。 


9.6.4” 回 边 和 可 归 约 性 


回 边 是 指 一 条 边 ab， 它 的 头 b 支 配 了 它 的 尾 a。 对 于 任何 流 图 ， 每 
条 回 边 都 是 后 退 边 ， 但 并 不 是 所 有 的 后 退 边 都 是 回 边 。 如 果 一 个 流 图 的 
任何 深度 优先 生成 树 中 所 有 后 退 边 都 是 回 边 ， 那 么 该 流 图 被 称 为 可 归 约 
的 〈reducible) 。 换 句 话 说， 如 果 一 个 流 图 是 可 归 约 的 ， 那 么 它 的 所 有 
DFST 的 后 退 边 的 集合 都 是 相同 的 ， 并 且 就 是 流 图 的 回 边 集 合 。 但 如 果 
流 图 是 不 可 归 约 的 ( 即 不 是 可 归 约 的 ) ， 那 么 所 有 的 回 边 在 任何 DFST 
中 都 是 后 退 边 ， 但 是 每 个 DFST 中 都 可 能 男 有 一 些 后 退 边 不 是 回 边 。 这 
样 的 后 退 边 集合 在 不 同 的 DFST 中 有 所 不 同 。 因 此 ， 如 果 我 们 删除 流 图 
中 所 有 回 边 后 得 到 的 流 图 带 有 环 ， 那 么 该 图 就 是 不 可 归 约 的 。 反 过 来 也 


成 立 。 











为 什么 回 边 是 后 退 边 


假设 ab 是 一 条 回 边 ， 即 它 的 头 文 配 它 的 尾 。 当 图 9-43 中 的 
search 函 数 到 达 a 时 ， 对 search 的 调用 序列 必然 是 流 图 中 的 一 条 路 径 。 


当然 ， 这 条 路 径 必 人 然 包 含 a 的 所 有 支配 结 点 。 由 此 可 知 ， 当 

search (a) 被 调用 时 ， 对 serach (b) 的 调用 必然 已 经 开始 但 尚未 结 
束 。 因 些 ， 当 a 被 加 入 到 树 中 时 b 己 经 在 树 中 ， 并 且 a 是 作为 b 的 一 个 后 
代 被 加 入 的 。 因 此 a sb 必然 是 一 条 后 退 边 。 





在 实践 中 出 现 的 流 图 几乎 都 是 可 归 约 的 。 如 果 只 使 用 诸如 if-then- 
else、while-do、continue 和 break 语 句 这 样 的 结构 化 控制 流 语句 ， 那 么 得 
到 的 程序 的 流 图 总 是 可 归 约 的 。 即 使 使 用 了 goto 语 句 ， 程 序 也 经 常 是 可 
归 约 的 ， 因 为 程序 员 在 逻辑 上 会 使 用 循环 和 分 文 的 方式 思考 问题 。 


加 89 369 的 六 加 是 可 内 的 的 。 图 中 的 所 有 后 退 边 都 是 回 边 。 也 训 
在 说 ， 这 些 边 的 头 支配 各 自 边 的 尾 。 


| 考 外 图 9-45 中 的 流 图 ， 它 的 初始 结 点 是 1。 结 点 1 文本 结 点 2 和 
3， 但 是 2 不 支配 3，3 也 不 支配 2。 因 此， 这 个 流 图 没有 回 边 ， 因 为 没有 
哪 条 边 的 头 支 配 其 尾 结 点 。 根 据 我 们 选择 从 search (1) 首先 调用 
search (2) 还 是 search (3) ， 可 以 得 到 两 个 可 能 的 深度 优先 生成 树 。 在 
第 一 种 情况 下 ， 边 3 ?是 一 个 后 退 边 但 不 是 回 边 ， 在 第 二 种 情况 下 ， 

2 ,3 是 一 个 后 退 边 但 不 是 回 边 。 直 观 地 讲 ， 使 得 这 个 流 图 不 可 归 约 的 原 
因 是 环 2-3 可 以 由 两 个 不 同 的 地 方 进入 : 结 点 2 和 结 点 3。 




















图 9-45 不 可 归 约 流 图 的 规范 形式 


9.6.5 流 图 的 深度 


给 定 一 个 流 图 的 深度 优先 生成 树 ， 该 流 图 的 深度 (depth) 是 各 条 
无 环 路 径 上 的 后 退 边 数目 中 的 最 大 值 。 我 们 可 以 证 明 这 个 深度 永远 不 会 
大 于 直观 上 上 所 说 的 流 图 中 循环 藤 套 的 深度 。 如 果 一 个 流 图 是 可 归 约 的 ， 
那么 我 们 可 以 用 “ 回 边 ? 来 着 换 上 面 的 “深度 ?定义 中 的 “后 退 边 ?， 因 为 任 
何 DFST 中 的 后 退 边 集合 就 是 回 边 集合 。 深 度 的 定义 因此 独立 于 实际 所 
选 的 DFST， 我 们 确实 可 以 说 “一 个 流 图 的 深度 ”， 而 不 是 流 图 的 特定 于 
东 个 深度 优先 生成 树 的 深度 。 


图 9-42 中 流 图 的 深度 是 3， 因 为 有 一 条 具有 三 条 后 退 边 的 路 径 
1 7 
但 是 没有 包含 四 个 或 更 多 后 退 边 的 无 环 路 径 。 这 里 的 最 “ 深 ? 的 路 径 恰巧 


只 包含 了 后 退路 径 ， 这 只 是 一 个 巧合 。 一 般 来 说 ， 在 一 个 最 深 路 径 中 可 
以 包含 后 退 边 、 前 进 边 和 交叉 边 。 




















9.6.6 日 然 循 环 


在 一 个 源 程序 中 ， 循 环 可 以 有 很 多 种 描述 方法 : 它们 可 以 被 写成 for 
循环 、while 循 环 或 repeat 循 环 ， 它们 甚至 还 可 以 用 标号 和 goto 语 句 来 定 
义 。 从 程序 分 析 的 角度 来 看 ， 循 环 在 源 代码 中 以 什么 形式 出 现 并 不 重 
要 ， 重 要 的 是 它们 是 任 具 有 易于 被 优化 的 性 质 。 我 们 特别 关心 的 是 一 个 
循环 是 否 只 有 一 个 唯一 的 入 口 结 点 。 如 果 是 这 样 ， 编 译 器 的 分 析 可 以 假 
设 茶 些 初始 条 件 在 循环 的 每 次 欠 代 的 开头 成 立 。 这 种 优化 机 会 引发 了 定 
义 “ 上 自然 循环 ”的 需求 。 


自然 循环 Cnatural loop) 通过 两 个 重要 的 性 质 来 定义 。 
1) 它 必 须 具 有 一 个 唯一 的 入 口 结 点 ， 称 为 循环 头 〈header) 。 这 个 


入 口 结 反 文 配 了 循环 中 的 所 有 结 点 ， 侍 则 它 就 不 会 成 为 循环 的 唯一 入 
口 。 














2) 必然 存在 一 条 进入 循环 头 的 回 边 ， 否 则 控制 流 束 不 可 能 从 “ 循 
环 ” 中 直接 回 到 循环 头 ， 也 就 是 说 实际 上 并 没有 循环 。 


给 定 一 个 回 边 n -~d， 我 们 定义 该 边 的 自然 循环 natural loop of the 
edge) 是 d 加 上 那些 不 经 过 qd 就 能 够 到 达 n 的 结 点 的 集合 。 结 点 d 是 这 个 循 
环 的 循环 头 。 


构造 一 条 回 边 的 自然 循环 。 
输入 : 一 个 流 图 G 和 一 条 回 边 n -,d。 
输出 ， 由 回 边 nd 的 自然 循环 中 的 所 有 结 点 组 成 的 集合 loop。 


方法 : 令 loop 等 于 {n，d} 。 把 d 标 记 为 “visited”， 以 便 搜索 过 程 不 
至 于 越过 结 点 d。 从 结 点 n 开 始 对 输入 的 反 辣 控制 流 图 进行 深度 优先 的 搜 
索 。 把 所 有 访问 到 的 结 点 都 加 入 loop。 这 个 过 程 可 以 找到 所 有 不 经 过 d 
就 可 以 到 达 n 的 结 点 。 


在 图 9-38 中 有 五 条 回 边 ， 这 些 边 的 头 结 点 支配 了 它们 的 尾 结 
态 。 它 们 是 ，10 ,7，7 4，4- 3，8 -3 和 9-.,1。 请 注意 ， 这 些 边 恰好 
就 是 所 有 的 被 认为 在 流 图 中 形成 循环 的 边 。 


回 边 10 7 有 自然 循环 {7，8，10} ， 因 为 8 和 10 是 不 经 过 7 就 能 到 
达 10 的 结 点 。 回 边 7 一 4 的 自然 循环 由 {4，5，6，7，8，10} 组 成 ， 
人 因此 ， 我 们 假设 后 者 是 包含 在 前 者 中 的 一 
上 内 部 循环 。 


回 边 4~3 和 8-3 的 目 然 循 环 具 有 同样 的 头 ， 即 结 点 3; 它们 恰巧 具 
有 同样 的 结 点 集合 : {3，4，5，6，7，8，10} 。 因 此 ， 我 们 将 把 这 两 
个 循环 合并 成 为 一 个 。 这 个 循环 包含 了 前 面 找到 的 两 个 较 小 的 循环 。 


最 后 ， 回 边 9- 1 的 上 自然 循环 是 整个 流 图 ， 因 此 是 最 外 层 的 循环 。 在 
四 个 循环 是 逐 层 供 套 的 。 然 而 ， 通 常会 有 两 个 互 不 包含 的 
循环 。 


因为 一 个 可 归 约 的 流 图 中 的 所 有 后 退 边 都 是 回 边 ， 我 们 可 以 把 每 条 
后 退 边 和 一 个 自然 循环 关联 起 来 。 这 个 结论 对 于 不 可 归 约 流 图 不 成 立 。 
比如 ， 图 9-45 中 的 不 可 归 约 流 图 中 有 一 个 由 结 点 2 和 3 组 成 的 坏 。 环 中 的 











边 都 不 是 回 边 ， 因 此 这 个 环 不 满足 自然 循环 的 定义 。 我 们 并 不 把 这 个 环 
当 作 上 自然 循环 ， 因 此 也 不 会 优化 它 。 这 种 情况 是 可 接受 的 ， 因 为 假设 所 
有 循环 都 有 唯一 的 入 口 点 可 以 使 循环 分 析 变 得 更 加 简单 。 而 且 不 管 怎么 
说 ， 不 可 归 约 的 程序 在 实践 中 很 少见 到 。 


如 果 我 们 只 把 自然 循环 当 作 “ 循 环 ”"， 那 么 可 以 得 到 下 面 的 有 用 性 
质 ， 即 除非 两 个 循环 上 共有 同样 的 循环 头 ， 人 否则 它们 要 么 是 分 离 的， 要 人 么 
一 个 髓 套 在 另 一 个 中 。 这 样 我 们 就 很 自然 地 得 到 了 最 内 层 循环 
(innermost loop〉 的 定义 ， 即 不 包含 其 他 循环 的 循环 。 


当 两 个 目 然 循环 像 图 9-46 中 那样 具有 相同 的 循环 头 时 ， 很 难说 谁 是 


内 层 的 循环 。 因 此 ， 如 宁 两 个 目 然 循环 具有 相同 的 循环 头 且 没 有 哪 一 个 
循环 真正 包含 在 为 一 个 循环 中 ， 它 们 将 被 合并 在 一 起 ， 当 作 一 个 循环 处 


BA 











图 9-46 具有 相同 循环 头 的 两 个 循环 


在 图 9-46 中 的 回 边 3 “1 和 4 1 的 自然 循环 分 别 是 {1，2，3} 
由 41，2，4} 。 我 们 将 把 它们 合并 成 一 个 循环 {1，2，3，4} 。 


然而 ， 假 如 图 9-46 中 有 男 一 个 回 边 2-,1， 它 的 循环 是 {1，2} 。 这 
个 循环 将 是 第 三 个 以 1 为 循环 头 的 目 然 循 环 。 这 个 循环 真 包含 于 循环 
{1，2，3，4} ， 因 此 它 不 会 和 其 他 两 个 自然 循环 合并 ， 而 是 作为 包含 


在 {1，2，3，4} 中 的 内 层 循 环 进行 处 理 。 
9.6.7” 友 代 数据 流 算 法 的 收敛 速度 


我 们 现在 可 以 讨论 友 代 算法 的 收敛 速度 了 。 如 9.3.3 贡 中 所 讨论 的 ， 
算法 的 最 大 友 代 次 数 可 能 是 格 的 高 度 和 流 图 结 点 数 的 乘积 。 对 于 很 多 数 
据 流 分 析 而 言 ， 我 们 可 以 对 求 值 过 程 进行 适当 排序 ， 使 算法 经 过 很 少 的 
迭代 就 能 收 伺 。 我 们 感 兴趣 的 性 质 是 是 否 所 有 影 啊 一 个 结 点 的 重要 事件 
都 可 以 通过 一 个 无 环 的 路 径 到 达 该 点 。 在 至 今 已 经 讨论 过 的 数据 流 分 析 
问题 中 ， 到 达 定 值 、 可 用 表达 式 和 活跃 变量 问题 具有 这 个 性 质 ， 而 常量 
传递 则 不 具有 这 个 性 质 。 更 加 明确 地 说 : 


。 如 果 一 个 定 值 d 在 IN [LB]」 中， 那么 必然 有 一 条 从 包含 d 的 基本 块 到 
达 B 的 无 环 路 径 使 得 d 在 该 路 径 上 的 所 有 IN 和 OUT 值 中 。 

如 果 表 达 式 x+y 在 基本 块 B 的 入 口 处 不 可 用 ， 那 么 必然 有 一 条 具有 
下 列 性质 的 无 环 路 径 : 要 么 该 路 径 从 程序 的 入 口 结 点 出 发 并 且 不 包 
含 任何 杀 死 或 产生 x+y 的 语句 ， 要 么 该 路 径 从 一 个 杀 死 了 x+ty 的 基本 
块 出 及 ， 并 且 从 此 之 后 该 路 径 中 没有 产生 表达 式 x+y。 

如 来 x 在 基本 块 B 的 出 口 处 活跃， 那么 必然 有 一 个 从 B 开 始 到 达 对 x 
的 茶 次 使 用 的 无 环 路 径 ， 在 此 路 径 上 没有 对 x 的 定 值 。 


我 们 可 以 检验 出 在 上 述 各 个 情况 中 ， 带 有 环 的 路 径 不 会 增加 任何 内 
。 比 如 ， 如 采 可 以 通过 一 个 带 环 的 路 径 从 基本 块 B 的 结尾 到 达 x 的 使 用 
， 那 么 我 们 可 以 消除 这 个 环 ， 得 到 一 个 更 短 的 路 径 。 治 着 这 个 较 短 路 
依然 可 以 从 B 到 达 x 的 这 个 使 用 点 。 


反 过 来 ， 常 量 传播 就 没有 这 个 性 质 。 考 虑 如 下 一 个 简单 程序 ， 它 仪 
包含 一 个 由 单个 基本 块 组 成 的 循环 ， 基 本 块 中 的 代码 为 
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当 第 一 次 访问 这 个 基本 块 时 ， 我 们 发 现 c 具 有 常量 值 1， 但 是 a 和 b 没 


有 和 定 值 。 第 二 次 访问 该 基本 块 时 ， 我 们 发 现 b 和 c 都 有 党 量 值 1。 经 过 对 
该 基本 块 的 三 次 访问 之 后 ， 赋 给 c 的 常量 值 1 才 到 达 a。 


如 采 所 有 有 有 用 的 信 ， 忌 都 通过 无 环 路 径 传 播 ， 我 们 就 有 可 能 调整 迭代 
数据 流 算法 中 访问 结 点 的 顺序 ， 以 便 经 过 几 轮 结 点 访问 就 可 以 保证 这 些 
信息 已 经 沿 着 所 有 的 无 环 路 径 传递 完毕 。 


回顾 一 下 9.6.3 节 中 说 过 ， 如 果 a-b 是 一 条 边 ， 那 么 只 有 当 该 边 是 后 
退 边 的 时 候 b 的 深度 优先 编号 才 会 小 于 a 的 编号 。 对 于 前 同 的 数据 流 问 
题 ， 按 照 深 度 优先 顺序 来 访问 结 点 是 很 合适 的 。 明 确 地 说 ， 我 们 对 图 9- 
把 算法 中 访问 流 图 中 各 个 基本 块 的 第 .4) 行 代 


for 〈 按 照 深度 优先 顺序 ， 对 所 有 不 同 于 ENTRY 的 各 个 基本 块 B) { 
假设 一 个 定 值 4 在 如 下 路 径 上 传播 ， 
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其 中 的 整数 表示 该 路 径 上 的 各 个 基本 块 的 深度 优先 编号 。 那 么 ， 图 9- 
23a 中 算法 的 第 (4) 到 (6) 行 的 循环 第 一 次 运行 时 ，d 将 从 OUT [3j 
传播 到 IN [5] 再 传播 到 OUT [5] ，...， 最 后 到 达 OUT [35] 。 因 为 16 
排 在 35 之 前 ，d 不 会 在 这 一 轮 中 到 达 IN [16] 。 在 d 被 放 进 OUT [35] 的 
时 候 ， 我 们 已 经 计算 了 IN [16」。 但 是 下 次 我 们 运行 第 〈4) 到 〈6) 行 
的 循环 时 ， 因为 此 时 d 已 经 在 OUT L35] 中 ， 它 将 在 计算 IN [16j 的 时 
候 被 加 入 进去 。 定 值 d 同 时 会 被 传播 到 OUT [16] ，IN [23」] ，.…， 最 
后 到 达 OUT [45] 。 它 必须 在 这 里 等 待 下 一 轮 计算 ， 因为 这 一 轮 中 已 经 
计算 过 IN [4] 了 。 在 第 三 轮 中 ，d 将 传播 到 IN [4] ，OUT [4] ， 

IN [10]】 和 IN [17] 。 因 此 在 三 轮 之 后 我 们 使 得 定 值 4 到 达 了 基本 块 
17; 








从 这 个 例子 中 不 难 抽 取出 一 般 规律 。 如 果 我 们 在 图 9-23a 中 使 用 深 
度 优先 排 夺 ， 那 么 把 任何 到 达 定 值 沿 厦 一 条 无 环 路 径 传 播 所 圾 要 的 达 代 
轮 次 不 会 大 于 路 径 中 从 高 编号 基本 块 到 低 编号 基本 块 的 边 的 个 数 加 一 。 
这 些 边 恰好 就 是 后 退 边 ， 因 此 ， 所 需 轮 次 就 是 流 图 的 深度 加 一 。 当 然 ， 
算法 9.11 还 需要 再 做 一 次 不 改变 任何 值 的 和 欠 代 ， 才 能 检测 出 所 有 定 值 都 
已 经 被 传播 到 了 所 有 它 能 够 到 达 的 地 方 。 因 此 ， 使 用 了 深度 优先 基本 块 
排序 的 这 个 算法 所 执行 的 迭代 轮 次 的 上 限 实际 上 是 深度 加 二 。 一 项 研 

















究 屿 表明 ， 常 见 流 图 的 平均 深度 大 约 是 2.75。 因 此 这 个 算法 的 收敛 速度 
很 快 。 


产生 不 可 归 约 数据 流 图 的 一 个 原因 


在 一 种 情况 下 我 们 通常 不 能 指望 一 个 流 图 是 可 归 约 的 。 如 果 像 我 
们 在 算法 9.46 中 寻找 自然 循环 所 做 的 那样 ， 把 一 个 程序 的 流 图 的 边 反 


回 ， 那 么 我 们 不 大 可 能 得 到 一 个 可 归 约 流 图 。 直 观 的 理由 是 ， 虽 然 典 
型 程序 的 循环 只 有 一 个 入 口 ， 但 这 些 循环 有 时 会 有 几 个 出 口 。 当 我 们 
把 流 图 的 边 及 向 时 ， 这 些 出 口 束 变 成 了 入 口 。 





在 类 似 于 活跃 变量 这 样 的 逆 问 数据 流 问 题 中 ， 我 们 以 深度 优先 排 序 
的 逆序 来 访问 结 点 。 这 样 ， 我 们 可 以 沿 着 路 径 
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经 过 一 个 轮 次 把 基本 块 17 中 对 某 个 变量 的 一 次 使 用 逆 癌 传播 到 

IN [4] 。 然 后 在 这 里 等 待 下 一 次 迭代 ， 以 便 把 它 传播 到 OUT [45】] 。 
0 它 到 达 IN [16] ， 在 第 三 轮 中 它 从 OUT [35] 到 达 
OUT [3] 。 


忆 的 来 说 ， 深 度 加 一 次 达 代 足以 把 一 个 变量 的 使 用 沿 大 任何 无 环 路 
径 敢 回 传 递 完毕 。 但 是 ， 我 们 必须 在 每 次 达 代 中 按照 深度 优先 排 友 的 逆 
序 来 访问 各 个 结 皮 ， 因 为 这 样 才 能 在 一 次 迭代 中 把 变量 的 使 用 沿 着 任意 
长 的 下 降 结 点 序列 传递 。 


在 一 些 数 据 流 分 析 问 题 中 ， 环 形 路 径 不 会 给 分 析 增 加 任何 信息 。 至 
今 为 止 讨 论 的 界限 是 所 有 此 类 问题 的 上 界 。 在 一 些 特殊 的 问题 中 ， 比 如 
对 于 文 配 结 皮 问题 ， 达 代 算法 的 收敛 速度 更 快 。 在 输入 流 图 是 可 归 约 的 
情况 下 ， 如 果 以 深度 优先 顺序 访问 各 个 结 皮 ， 那 么 数据 流 算 法 的 第 一 轮 
迭代 就 可 以 得 到 各 个 结 点 的 文 配 结 点 集合 。 如 果 我 们 之 前 不 知道 输入 流 
图 是 可 归 约 的 ， 那 么 我 们 需要 一 次 额外 的 达 代 来 确定 算法 已 经 收敛 了 。 











9.6.8 9.6 节 的 练习 


练习 9.6.1: 对 于 图 9-10 中 的 流 图 〈 见 9.1 节 的 练习 ) : 

1) 计算 文 配 关 系 。 

2) 寻找 每 个 结 点 的 直接 支配 结 点 。 

3) 构造 支配 结 点 树 。 

4) 找 出 该 流 图 的 一 个 深度 优先 排序 。 

5) 根据 问题 4 的 答案 ， 指 明 其 中 的 前 进 、 后 退 和 交叉 边 以 及 树 的 


6) 这 个 流 图 是 可 归 约 的 吗 ? 

7) 计算 这 个 流 图 的 深度 。 

8) 找 出 这 个 流 图 的 自然 循环 。 

练习 9.6.2: 对 于 下 列 流 图 重复 练习 9.6.1。 

1) 图 9-3。 

2) 图 8.9。 

3) 从 练习 8.4.1 得 到 的 流 图 。 

4) 从 练习 8.4.2 得 到 的 流 图 。 

! 练习 9.6.3: 证 明 下 列 有 关 dom 关 系 的 性 质 。 

1) 如 果 a dom b 且 b dom c， 那 么 a dom c〔( 传 递 性 )。 
2) 如 果 azb， 那 么 a dom b 和 b dom a 不 可 能 同时 成 立 (反对 称 


3) 如 果 a 和 b 是 n 的 两 个 支配 结 点 ， 那 么 a dom b 和 b dom a 之 一 必然 
成 立 。 


4) 除了 入 口 结 点 ， 每 个 结 点 n 都 有 一 个 唯一 的 直接 支配 结 点 一 一 在 
任何 从 入 口 结 点 到 达 n 的 无 环 路 径 中 ， 这 个 文 配 结 点 是 离 n 最 近 的 文 配 结 
后 。 


! 练习 9.6.4: 图 9-42 是 图 9-38 中 流 图 的 一 个 深度 优先 表示 。 这 个 流 
图 有 多 少 个 其 他 的 深度 优先 表示 ?请 记 住 ， 不 同 的 子 结 点 顺序 表示 不 同 
的 深度 优先 表示 。 


! ! 练习 9.6.5: 证 明 一 个 流 图 是 可 归 约 的 当 且 仅 当 我 们 删除 所 有 回 
边 《 即 头 结 点 文 配 尾 结 点 的 边 ) 后 得 到 的 流 图 是 无 环 的 。 


! 练习 9.6.6: 一 个 具有 n 个 结 点 的 完全 流 图 在 任意 两 个 结 点 1 和 和 j 之 间 
《在 两 个 方向 上 ) 都 有 边 i、j。n 取 什么 值 的 时 候 这 个 完全 流 图 是 可 归 约 
的 ? 


! 练习 9.6.7: 一 个 在 n 个 结 点 1，2，...，n 上 的 无 环 完全 流 图 对 于 所 
有 的 结 点 i 和 和 j (i<j) 都 有 边 i sj。 其 中 结 点 1 是 入 口 结 点 。 


1) n 取 什么 值 的 时 候 这 个 图 是 可 归 约 的 ? 
2) 如 果 给 所 有 的 结 反 i 都 加 上 上 自 循环 边 i i， 是 人 否 会 改变 对 问题 8 的 


! 练习 9.6.8: 一 个 回 边 n h 的 目 然 循 环 锐 定义 为 h 加 上 所 有 能 够 不 
经 过 h 而 直接 到 达 n 的 结 点 的 集合 。 说 明 h 支 配 n sh 的 自然 循环 中 的 所 有 


a 
结 点 
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! ! 练习 9.6.9: 我 们 说 过 ， 图 9-45 的 流 图 是 不 可 归 约 的 。 如 果 图 中 
的 那些 边 被 蕉 换 为 不 同 的 路 径 〈 当 然 结 束 点 除外 ) ， 且 各 条 路 人 径 的 结 反 
集合 两 两 不 相交 ， 那 么 得 到 的 流 图 还 是 不 可 归 约 的 。 实 际 上 ， 结 点 1 不 
一 定 要 是 入 口 结 点 ， 它 可 以 是 任何 能 够 从 入 口 结 点 沿 看 茶 条 路 径 到 达 的 
结 点 ， 只 要 该 条 路 径 的 所 有 中 间 结 点 都 不 是 上 面 明 确 给 出 的 四 条 路 径 中 
的 一 部 分 。 证 明 上 面 的 论述 反 过 来 也 成 立 : 每 个 不 可 归 约 流 图 都 有 一 个 
如 下 的 子 图 。 这 个 子 图 和 图 9-45 中 的 流 图 类 似 ， 只 是 该 流 图 的 边 可 以 被 
丛 换 为 结 点 互 不 相交 的 路 径 ， 而 结 点 1 可 以 是 任意 能 够 从 入 口 结 点 经 过 























某 条 不 和 其 他 四 条 路 径 相 区 的 路 径 到 达 的 结 点 。 


! ! 练习 9.6.10: 说 明 每 个 不 可 归 约 流 图 的 每 个 深度 优先 表示 都 有 
一 条 不 是 回 边 的 后 退 边 。 


! ! 练习 9.6.11: 说 明 如 果 条 件 
f (a) Mg (a) Ma<f (g (a) ) 


对 于 所 有 的 函数 f、g 和 值 a 成 这 ， 那 么 通用 迭代 算法 ， 即 算法 9.25， 在 按 
照 深度 优先 排序 执行 每 次 从 代 时 ， 经 过 深度 加 二 次 达 代 之 后 必然 收 化 。 


练习 9.6.12: 找到 一 个 具有 两 棵 不 同 深 度 的 DFST 的 不 可 归 约 流 





图 。 


练习 9.6.13: 证 明 下 列 结论 : 


1) 如 果 一 个 定 值 d 在 IN [LB]」 中， 那么 存在 东 条 从 包含 d 的 基本 块 
到 达 B 的 无 环 路 径 ， 使 得 d 在 该 路 径 上 的 所 有 IN 和 OUT 值 中 。 


2) 如 果 一 个 表达 式 x+y 在 基本 块 B 的 入 口 处 不 可 用 ， 那 么 必然 存在 
某 条 到 达 B 的 无 环 路 径 满 足下 面 的 条 件 : 要 么 该 路 径 从 程序 入 口 结 点 开 
始 并 且 不 包含 任何 杀 死 或 生成 x+y 的 语句 ， 要 么 该 路 径 从 一 个 杀 死 了 x+y 
的 基本 块 开 始 ， 并 且 路 径 中 不 包 合 任何 生成 x+y 的 语句 。 


3) 如 果 x 在 基本 块 B 的 出 口 处 活跃 ， 那 么 必然 有 一 条 从 B 到 x 的 东 个 
使 用 点 的 路 径 ， 在 该 路 径 上 没有 对 x 的 定 值 。 





9.7 基于 区 域 的 分 析 


至 今 为 止 我 们 讨论 的 友 代 数据 流 分 析 算 法 只 是 解决 数据 流 问 题 的 方 
法 之 一 。 接 下 来 我 们 讨论 另 一 种 被 称 为 基于 区 域 的 分 析 (region-based 
analysis 的 方法 。 回 顾 一 下 ， 在 友 代 分 析 方 法 中 ， 我 们 为 各 个 基本 块 
创建 传递 函数 ， 然 后 通过 在 基本 块 上 进行 反复 扫描 来 寻找 不 动 点 解 。 一 
个 基于 区 域 的 分 析 技 术 并 不 仅仅 为 各 个 基本 块 创建 传递 函数 ， 它 为 越 来 
越 大 的 程序 区 域 构造 用 以 描述 该 区 域 运 行情 况 的 传递 函数 。 最 终 构 造 出 
整个 过 程 的 传递 函数 ， 并 用 这 个 传递 函数 直接 得 到 想 要 的 数据 流 值 。 


一 个 使 用 和 欠 代 算法 的 数据 流 框架 通过 一 个 数据 流 值 的 半 格 和 一 组 对 
函数 组 合 运 算 封 闭 的 传递 函数 来 描述 ， 而 基于 区 域 的 分 析 还 需要 更 多 的 
元 素 。 一 个 基于 区 域 的 框 娘 包括 一 个 数据 流 值 的 半 格 和 一 个 传递 函数 的 
半 格 。 后 一 种 半 格 必须 包括 一 个 交汇 和 运算、 一 个 组 合 运算 符 和 一 个 财 包 
运算 符 。 我 们 将 在 9.7.4 节 看 到 所 有 这 些 元 素 的 作用 。 


基于 区 域 的 分 析 技 术 特 别 适用 于 那些 包含 环 的 路 径 可 能 改变 数据 流 
值 的 数据 流 问 题 。 它 的 财 包 运算 符 允 许 我 们 概括 描述 一 个 循环 的 运行 效 
果 ， 这 种 方法 比 迭 代 分 析 中 的 方法 更 加 有 效 。 这 个 技术 对 过 程 间 分 析 也 
是 有 用 的 。 在 进行 过 程 间 分 析 时 ， 和 一 次 过 程 调 用 关联 的 传递 函数 可 以 
和 那些 与 基本 块 相关 联 的 传递 冰 数 一 样 处 理 。 


为 简单 起 见 ， 我 们 在 这 一 节 中 将 只 考虑 前 辐 数 据 流 问题 。 我 们 将 衣 
先 通过 大 家 熟知 的 到 达 定 值 的 例子 来 说 明基 于 区 域 的 分 析 技 术 的 工作 原 
理 。 在 9.8 节 中 ， 当 我 们 研究 归纳 变量 的 时 候 ， 我 们 将 给 出 一 个 有 关 这 
个 技术 的 更 有 说 服 力 的 例子 。 





9.7.1 ”区域 








在 基于 区 域 的 分 析 中 ， 程 序 被 看 作 是 一 个 区 域 (region) 的 层次 结 
构 。 区 域 (粗略 地 讲 〉 就 是 一 个 流 图 中 只 具有 单个 入 口 结 反 的 部 分 。 我 
们 会 发 现 ， 把 代码 看 作 区 域 层 次 结构 的 概念 是 很 直观 的 ， 因 为 一 个 基于 
块 结构 的 过 程 很 目 然 地 被 组 织 成 一 个 区 域 层次 结构 。 在 一 个 块 结构 的 程 





序 中 ， 每 个 语句 就 是 一 个 区 域 ， 因 为 控制 流 只 能 从 一 个 语句 的 开头 进 
入 。 每 个 语句 柑 套 层次 对 应 于 区 域 层次 结构 中 的 一 层 。 


正式 地 讲 ， 流 图 的 一 个 区 域 是 满足 如 下 条 件 的 一 个 结 点 集 N 和 边 集 








1) 在 N 中 有 一 个 文 配 N 中 所 有 结 点 的 头 结 点 h。 
2) 如 果 某 个 结 点 m 能 够 不 经 过 h 到 达 N 中 的 n， 那 么 m 也 在 N 中 。 


3) E 是 所 有 位 于 N 中 的 任意 两 个 结 点 n1 和 ny 之 间 的 控制 流 边 的 集 
合 。 有 些 进入 h 的 边 〈 可 能 ) 不 在 其 中 。 
的 R 显然 ， 一 个 自然 循环 就 是 一 个 区 域 ， 但 是 一 个 区 域 不 一 定 包含 
一 条 回 边 ， 也 不 需要 包含 任何 环 。 比 如 ， 图 9-47 中 的 结 点 Bl1 和 B, 以 及 边 
Bi 一 B; 形 成 了 一 个 区 域 ， 结 点 B1/、B，、B3 以 及 边 Bj ,B，,、B, 一 B3 和 


Bi 一 B3 也 形成 一 个 区 域 。 
《B1 ) 入 口 基 本 块 


图 9-47 区 域 的 例子 


但 是 由 结 点 B,、B3 以 及 边 B, -Bs 组 成 的 子 图 不 是 一 个 区 域 ， 因 为 控 
制 流 可 能 从 结 点 Bs 或 B3 进 入 这 个 子 图 。 更 准确 地 说 ，B, 和 Bs 都 不 支配 男 
一 个 结 点 ， 因 此 违反 了 区 域 定义 中 的 条 件 (1〉。 即 使 我 们 “选择 ” 某 个 
结 点 《比如 B,) 作为 “ 头 结 点 ”， 我 们 还 是 会 违反 条 件 (2) ， 因 为 我 们 
可 以 不 经 过 B, 就 从 B1 到 达 B3， 而 Bj 不 在 这 个 “区 域 ” 中 。 





9.7.2 ”可 归 约 流 图 的 区 域 层 次 结构 


在 接 下 来 的 内 容 中 ， 我 们 将 假设 流 图 是 可 归 约 的 。 如 果 我 们 偶尔 必 
须 处 理 不 可 归 约 流 图 的 话 ， 我 们 可 以 使 用 一 种 被 称 为 “ 结 反 分割” 的 技 
术 。 该 技术 将 在 9.7.6 节 中 讨论 。 


为 了 构造 区 域 的 层次 结构 ， 我 们 需要 找 出 自然 循环 。 回 顾 一 下 9.6.6 
节 ， 在 一 个 可 归 约 流 图 中 ， 任 何 两 个 自然 循环 要 么 不 相交 ， 要 么 一 个 循 
环 肉 套 在 忆 一 个 循环 里 。 在 对 一 个 流 图 进行 “分 析 ? 并 得 到 它 的 区 域 层 次 
结构 的 过 程 在 一 开始 的 时 候 把 每 个 基本 块 本 身 看 作 一 个 区 域 。 我 们 把 这 
些 区 域 称 为 叶子 区 域 (leaf region) 。 然 后 ， 我 们 把 自然 循环 从 内 到 外 
《 即 从 最 内 层 的 循环 开始 ) 排序 。 处 理 一 个 循环 时 ， 我 们 用 两 个 步骤 把 
整个 循环 丛 换 为 一 个 结 点 : 


1) 首先 ， 循 环 世 的 循环 体 〈 所 有 的 结 点 以 及 除了 到 达 循 环 头 的 回 边 
之 外 的 所 有 边 ) 被 替换 为 一 个 结 点 ， 该 结 点 代表 一 个 区 域 R。 原 先 到 达 
LL 的 循环 头 的 边 现在 进入 代表 R 的 结 点 。 从 L 的 任意 出 口 结 点 出 发 的 边 被 
替换 为 从 代表 R 的 结 点 到 达 同 一 个 目标 结 点 的 边 。 但 是 ， 如 果 该 边 是 一 
个 回 边 ， 那 么 它 变 成 了 R 上 的 一 个 圈 。 我 们 把 R 称 为 循环 体 区 域 (body 


region ) 。 


2) 然后 ， 我 们 构造 一 个 代表 整个 自然 循环 L 的 区 域 R'，R' 称 为 一 个 
循环 区 域 (loop region) 。R 和 R' 之 间 的 唯一 区 别 在 于 后 者 包含 了 到 达 L 
的 循环 头 的 回 边 。 换 句 话说， 在 流 图 中 用 R' 蔡 换 R 时 ， 我 们 要 做 的 是 删 
除 从 R 到 其 自身 的 边 。 


我 们 按照 这 个 方法 不 断 进 行 处 理 ， 把 越 来 越 大 的 循环 替换 成 为 单个 
结 点 。 在 处 理 时 先 把 循环 丛 换 成 为 带 有 图 的 结 点 ， 再 丛 换 成 为 不 种 图 的 
结 点 。 因 为 可 归 约 流 图 中 的 循环 要 么 相互 拒 套 ， 要 么 相互 不 相交 ， 所 以 
在 按照 这 个 归 约 过 程 构造 得 到 的 一 系列 流 图 中 ， 循 环 区 域 结 点 可 以 表示 
对 应 的 目 然 循环 的 所 有 结 扣 。 


各 个 上 自然 循环 最 终 部 会 归 约 成 为 单一 的 结 点 。 此 时 ， 要 么 这 个 流 图 
被 归 约 为 单个 结 点 ， 要 么 还 有 多 个 结 点 但 是 不 包含 循环 ， 即 归 约 得 到 的 
流 图 是 一 个 包含 多 个 结 点 的 无 环 图 。 在 前 一 种 情况 下， 我们 已 经 完成 了 
对 区 域 层次 结构 的 构造 ， 而 在 后 一 种 情况 下 ， 我 们 需要 为 整个 流 图 再 构 














造 一 个 循环 体 区 域 。 


赋 台 | 考虑 图 9-48a 中 的 控制 流 图 。 在 这 个 流 图 中 有 一 条 从 Bs 到 B, 的 
回 边 。 相 应 的 区 域 层次 结构 在 图 9-48b 中 显示 ， 图 中 显示 的 边 是 区 域 流 
图 的 边 。 图 中 总 共有 8 个 区 域 : 
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B 5 (EXIT) 
a) 到 达 定 值 问题 的 例子 流 图 b) 它 的 区 域 层 次 结构 
图 9-48 ” 例 9.51 的 控制 流 图 
1) 区 域 Ri，...，Rs 是 叶子 区 域 ， 分 别 代表 了 基本 块 B1 到 Bs。 每 个 


基本 块 也 是 它 的 区 域 的 出 口 基本 块 。 


2) 循环 体 区 域 Re 表示 流 图 中 唯一 循环 的 循环 体 。 它 由 区 域 R,、R3 
和 Rs 组 成 ， 并 包括 了 三 个 区 域 之 间 的 边 : B, 一 Ba、B, 一 By 和 Bs 一 By。 
这 个 区 域 有 两 个 基本 块 : B3 和 B4， 因 为 它们 有 不 包含 在 区 域内 的 、 离 开 
它们 的 边 。 图 9-49a 显 示 了 把 Re 归 约 为 一 个 结 点 之 后 得 到 的 流 图 。 请 注 
意 ， 虽 然 边 R3 一 Rs 和 Rs 一 Rs 都 被 蔡 换 为 边 Re 一 Rs， 记 住 Re 一 Rs 实际 上 
代表 了 两 条 原来 的 边 是 很 重要 的 。 因 为 我 们 最 终 要 沿 着 这 条 边 传播 传递 
函数 ， 所 以 需要 记 住 从 B3 或 B4 出 发 的 传递 函数 将 到 达 Rs 的 头 结 点 。 








a) 在 归 约 为 一 个 循 ” b) 在 归 约 为 一 个 
环 体 区 域 之 后 循环 区 域 之 后 
图 9-49 ”把 图 9-48 的 流 图 归 约 为 单个 区 域 的 步骤 
3) 循环 区 域 R; 代 表 整 个 自然 循环 。 它 包含 了 一 个 子 区 域 Re6 和 一 条 
回 边 B4B，。 它 也 有 两 个 出 口 结 点 ， 仍 然 是 By3 和 Bs4。 图 9-49b 中 显示 了 
把 整个 自然 循环 归 约 为 Ry 之 后 得 到 的 流 图 。 





4) 最 后 ， 区 域 Re 是 顶层 区 域 。 它 包含 三 个 区 域 ，R1、Rzy 和 Rs， 以 
及 三 条 区 域 之 间 的 边 B1 -B，、B3- Bs 和 Bs -Bs。 当 我 们 把 流 图 归 约 为 
Rg 的 时 候 ， 它 就 变 成 单个 结 点 。 因 为 没有 回 边 到 达 它 的 头 结 点 B1， 因 此 
不 需要 再 执行 一 个 最 后 的 步 又， 把 这 个 区 域 Ra 归 约 成 为 一 个 循环 区 域 。 











我 们 用 下 面 的 算法 来 概括 按照 层次 结构 分 解 一 个 可 归 约 流 图 的 过 


构造 一 个 可 归 约 流 图 的 自 底 向 上 的 区 域 序列 。 
答 入 ， 一 个 可 归 约 流 图 G。 
输出 ，G 的 区 域 的 列表 ， 该 列表 可 用 于 基于 区 域 的 数据 流 问题 。 





方法 : 


1) 一 开始 ， 列 表 中 以 菜 种 顺序 包含 了 由 G 的 各 个 基本 块 组 成 的 所 
有 叶子 区 域 。 


2) 不 断 选择 满足 如 下 条 件 的 目 然 循环 L: 如 果 L 中 包含 了 其 他 的 目 








然 循 环 ， 那 么 这 些 被 包含 的 循环 对 应 的 循环 体 区 域 和 循环 区 域 己 经 被 加 
入 到 列表 中 。 首 先 把 由 工 的 循环 体 〈 即 循环 L 中 除了 到 达 世 的 循环 头 的 各 
组 成 的 区 域 加 入 到 列表 中 ， 然 后 再 加 入 工 的 循 
环 区 域 。 


3) 如 果 整 个 流 图 本 喘 不 是 一 个 自然 循环 ， 在 列表 的 最 后 加 入 由 整 
个 流 图 组 成 的 区 域 。 





为 什么 叫做 “可 归 约 的 ” 


现在 我 们 可 以 知道 可 归 约 流 图 得 名 的 原因 了 。 虽 然 我 们 不 会 证 明 
下 面 的 性 质 ， 但 本 书 中 用 涉及 流 图 的 回 边 来 定义 的 “可 归 约 流 图 ”和 其 
他 几 个 按照 能 人 否 把 一 个 流 图 机 械 地 归 约 成 一 个 结 点 的 定义 方式 实际 上 
是 等 价 的 。 在 9.7.2 市 中 摘 述 的 把 自然 循环 声 缩 成 为 一 个 结 点 的 过 程 是 
上 述 机 械 化 归 约 过 程 的 一 种 。 可 归 约 流 图 的 男 一 个 有 趣 的 定义 是 可 以 
按照 下 列 方法 被 归 约 成 为 一 个 结 点 的 所 有 流 图 : 


Ti: 删除 从 一 个 结 点 到 达 上 自身 的 边 。 








T,: 如 果 结 点 n 有 唯一 的 前 驱 m， 并 且 n 不 是 流 图 的 入 口 结 点 ， 那 
么 把 m 和 n 合 并 。 





9.7.3 ”基于 区 域 的 分 析 技 术 概 述 


对 于 每 个 区 域 R 以 及 每 个 R 中 的 子 区 域 R'， 我 们 计算 一 个 传递 函数 
fh，IN LR'] 来 概括 在 R 内 部 的 从 R 的 入 口 到 R' 的 入 口 的 全 部 可 能 路 径 的 
执行 效果 。 如 果 存 在 一 条 从 区 域 R 中 的 基本 块 B 到 达 R 之 外 的 基本 块 的 
边 ， 我 们 就 说 B 是 R 的 一 个 出 口 基本 块 (exit block) 。 我 们 也 为 R 中 的 每 
个 出 口 基 本 块 B 计 算 一 个 传递 函数 ， 记 为 f，our rg] 。 这 个 传递 函数 概 
9 在 R 中 从 R 的 入 口 基本 块 到 达 B 的 出 口 处 的 所 有 可 能 路 径 的 执行 
入 





然后 我 们 沿 着 这 个 区 域 层次 结构 逐步 同上 ， 为 越 来 越 大 的 区 域 计 算 
传递 函数 。 我 们 从 由 单个 基本 块 组 成 的 区 域 开始 。 对 于 任何 一 个 这 样 的 
区 域 B，f 人 ,mv rp] 就 是 一 个 单元 函数 ， 而 凶 ,， our [B] 则 是 基本 块 B 自 号 
的 传递 函数 。 当 我 们 沿 着 层次 结构 向 上 时 ， 


。 如 采 R 是 一 个 体 区 域 ， 那 么 属于 R 的 边 构 成 了 R 的 子 区 域 的 一 个 无 环 
图 。 我 们 可 以 按照 子 区 域 的 拓扑 排序 计算 传递 函数 。 

ee 
边 的 效果 。 


最 终 我 们 必然 会 到 达 层 次 结构 的 顶部 ， 并 计算 得 到 对 应 于 整个 流 图 
的 区 域 Ru 的 传递 函数 。 在 算法 9.53 中 描述 了 计算 过 程 。 


下 一 步 是 计算 各 个 基本 块 的 入 口 和 出 口 处 的 数据 流 值 。 我 们 按照 相 
反 的 方向 ， 从 区 域 R, 开 始 沿 着 层次 结构 向 下 处 理 各 个 区 域 。 对 于 每 个 区 
域 ， 我 们 计算 其 入 口 处 的 数据 流 值 。 对 于 区 域 R,， 我 们 应 用 fr, NIR] 
(IN [ENTRY」) 来 计算 R, 的 子 区 域 R 的 入 口 处 的 数据 流 值 。 我 们 重复 
这 个 过 程 ， 直 到 到 达 位 于 区 域 层 次 结构 中 的 叶子 上 的 基本 块 为 止 。 

















9.7.4 有关 传 递 函 数 的 必要 假设 





为 了 使 得 基于 区 域 的 分 析 能 够 解决 问题 ， 我 们 要 对 框架 中 的 传递 函 
数 集合 的 性 质 作 出 某 些 假设 。 明 确 地 说 ， 我 们 需要 作用 于 传递 函数 之 上 
的 三 个 基本 原子 运算 : 组 合 、 交 汇 运算 和 闭 包 运算 。 使 用 和 迭代 算法 的 数 
据 流 框架 只 圾 要 其 中 的 第 一 个 运算 。 


组 合 


一 个 结 点 序列 的 传递 函数 可 以 把 表示 各 个 结 点 的 传递 函数 组 合 起 来 
得 到 。 令 fi 和 ,是 结 点 nj 和 ny 的 传递 函数 。 执 行 nj 再 执行 np, 的 效果 可 以 用 
函数 有。 丰 来 表示 。 函 数组 合 已 经 在 9.2.2 市 中 讨论 过 ， 并 且 在 9.2.4 节 中 
用 到 达 定 值 给 出 了 一 个 例子 。 为 了 回顾 一 下 ， 令 gen; 和 kill; 是 fi 的 gen 和 和 
ki 集合 。 那 么 











fr°of1i(x) =gens UYU((geny U(x hilll)) -kill,) 
= (geny U(geny -hilly)) U(x— (killy Uhill,)) 


因此 ， 甩 。fi 的 gen 和 kill 集 合 分 别 是 (gen;U (gen1-killp;，) 和 

(killi U kill, ，》。 对 于 所 有 具有 gen-kill 形 式 的 传递 函数 ， 这 个 想法 都 是 
可 行 的 。 其 他 形式 的 传递 函数 可 能 也 对 组 合 运 算 封 闭 ， 但 是 我 们 必须 单 
独 考虑 各 种 情况 。 


交汇 运算 


这 里 ， 传 递 函数 集合 本 身 就 是 一 个 具有 交汇 运算 人 ;的 半 格 的 值 
域 。 两 个 传递 函数 f 和 的 交 ， 即 fj 八 ef,， 被 定义 为 (fi 人 fy) (x) 
=fil (x) 八 f (x) ， 其 中 和 是 数据 流 值 的 交汇 和 运算。 传递 函数 上 的 交 
汇 运 算 用 来 把 具有 相同 结尾 点 的 不 同 执行 路 径 的 执行 效果 组 合 起 来 。 从 
现在 开始 ， 在 不 会 引起 卜 义 时 我 们 把 传递 函数 的 交汇 运算 也 写成 人 。 对 
于 到 达 定 值 框架 ， 我 们 有 


(fi A\f,) (X) = 全 (XxX) 人 f» (X) 











= (geniU (x-killi1) ) U (gen»U (x-kill,) ) 

= (geni Ugen?) U (x- (killiNkill,， ) 
也 就 是 说 ，fi 八 f 的 gen 和 kill 集 合 分 别 是 gen1 U gen5 和 killjnkillb。 仍 然 和 
处 理 组 合 运算 一 样 ， 对 于 任何 gen-kill 形 式 的 传递 函数 集合 都 可 以 进行 同 
样 的 处 理 。 

闭 包 

如 果 人 表示 一 个 环 的 传递 函数 ， 那 么 包 表 示 沿 着 这 个 环 执行 n 次 的 效 


果 。 当 不 知道 迭代 次 数 的 时 候 ， 我 们 必须 假设 这 个 环 将 被 执行 0 到 多 
次 。 我 们 用 三 ， 即 f{ 的 朵 包 来 表示 这 样 的 循环 的 传递 函数 。 闭 包 f 的 定义 


如 下 
产 = 人 PP 


有 三 0 


请 注意 ， 必 须 是 单元 传递 函数 ， 因 为 它 代表 把 这 个 循环 执行 0 次 的 效 
果 ， 即 从 入 口 处 开始 但 不 运行 的 效果 。 如 果 令 I 表 示 单 元 传递 函数 ， 那 
么 可 以 把 上 式 写 成 


r= 


n>0 


假设 在 一 个 到 达 定 值 框架 中 的 传递 浮 数 f 有 一 个 gen 集 和 一 个 kill 集 。 那 
A 


f(x) =f (f (x) ) 

=genU ( (genU (x-kill) ) -kill) 

=genU (x-kill) 

B(x) =f (fF (x) 

=genU (x-kill) 
以 此 类 推 ， 即 所 有 的 名 都 是 gen U 〈x-kill) 。 也 就 是 说 ， 如 果 传 递 函 数 
ee 那么 沿 着 一 个 循环 执行 的 次 数 对 该 函数 没有 影响 。 

下 (x) elf tay A Cx vw 

=xU (genU (x-kil) ) 

=gen Ux 
也 就 是 说 ， 传 递 函数 f 的 gen 和 kil 集 合 分 别 是 gen 和 1f。 直 观 地 讲 ， 因 为 
我 们 可 能 根本 不 沿 着 这 个 循环 执行 ，x 中 的 任何 元 素 都 可 以 到 达 这 个 循 


环 的 入 口 处 。 在 此 后 的 所 有 大 代 中 ， 到 达 定 值 中 总 是 包括 所 有 在 gen 集 
合 中 的 元 素 。 


.75 一 个 车 于 区 坟 风 分 人 析 守 全 


下 面 的 算法 根据 某 个 满足 9.7.4 节 中 假设 的 框架 ， 解 决 了 一 个 可 归 约 
流 图 上 的 前 向 数据 流 分 析 问 题 。 回 顾 一 下 ， 欠 ，IN [R'] 和 各， our re] 
是 两 个 传递 函数 ， 它 们 把 区 域 R 的 入 口 点 上 的 数据 流 值 分 别 转换 为 在 子 
区 域 R' 入 口 处 和 出 口 基本 块 B 的 出 口 处 的 数据 流 值 。 


基于 区 域 的 分 析 。 


输入 : 一 个 具有 9.7.4 市 中 所 列 性 质 的 数据 流 框 和 保 和 一 个 可 归 约 流 图 
Gr。 





输出: G 中 的 每 个 基本 块 B 的 数据 流 值 IN LBj 。 

方法 : 

1) 使 用 算法 9.52 来 构造 G 的 自 哲 加 上 的 区 域 序列 ， 假 设 它 们 是 Ri， 
R,，...，R,， 其 中 RR, 是 最 项 层 的 区 域 。 

2) 进行 自 研 向 上 的 分 析 ， 计 算 概括 了 每 个 区 域 的 执行 效 末 的 传递 
函数 。 对 于 按照 自 底 向 上 顺序 排列 的 每 个 区 域 R1，R2，.…，Rn， 进 行 下 
列 计算 : 

(a) 如 果 R 是 一 个 对 应 于 基本 块 B 的 叶子 区 域 ， 令 人 AN [81 =L 
fr, OUT [B] =fp。 其 中 ， fp 是 基本 块 B 的 传递 疯 数 。 


(b)〉 如 果 R 是 一 个 循环 体 区 域 ， 执行 图 9-50a 中 的 计算 。 








for (按照 拓扑 排序 ， 对 于 每 个 直接 包含 于 RR 
的 子 区 域 S) { 


JRIN[S] 三 八 的 头 结 点 在 R 中 的 前 驱 B Ja,OUTIB]; 
/* 如 果 S 是 区 域 思 的 头 ， 那么 JR.IN[s] 就 是 


对 空 集 应 用 交汇 运算 的 结果 ， 也 就 是 单元 国 数 */ 
for (S 中 的 每 个 出 口 基本 块 B) 
fR,OUTIB] = fs,OUTIB] ° fR,IN[S); 





a) 构造 一 个 循环 体 区 域 尺 的 传递 函数 


令 9 为 直接 包含 于 忆 的 循环 体 区 域 ， 就 是 说 5 就 是 从 民 中 
删除 了 到 达 咏 的 头 结 点 的 回 边 后 得 到 的 区 域 


JRINIs] = ( 作 s 的 头 结 点 在 RR 中 的 前 驱 Bfs,0UTIB]) ; 
for (及 中 的 每 个 出 口 林 本 块 B) 


fR,OUTI[B] = fs,OUTIB] ©° fR,INIS); 





b) 为 一 个 循环 区 域 R' 构 造 传 递 函 数 
图 9-50 基于 区 域 的 数据 流 计算 的 细节 


Cc) 如 果 R 是 一 个 循环 区 域 ， 执 行 图 9-50b 中 的 计算 。 
3) 进行 目 顶 回 下 的 扫描 ， 找 出 各 个 区 域 开 始 处 的 数据 流 值 。 
(a) IN [R,] =IN [ENTRY] 。 


(b) 按照 自 顶 向 下 的 顺序 ， 对 {Ri1，R2，...，R,1} 中 的 每 个 区 
域 R 计 算 


IN [R] =fr,, wv rr] (IN LR'] ) 





其 中 R' 是 直接 包含 区 域 R 的 区 域 。 


让 我 们 首先 看 一 下 算法 中 自 底 和 同上 分 析 过 程 的 工作 细节 。 在 图 9- 
50a 的 第 (1) 行 中 ， 我 们 按照 茶 个 拓扑 排序 访问 一 个 循环 体 区 域 的 各 个 
子 区域 。 第 (2) 行 中 计算 的 传递 函数 代表 了 所 有 从 R 的 头 结 点 到 S 的 头 
结 点 的 可 能 路 径 的 执行 效果 ; 第 (3) 和 “(4) 行 中 计算 的 传递 函数 代表 
了 所 有 从 R 的 头 结 点 到 R 的 出 口 点 《〈 即 所 有 的 某 个 后 继 在 $ 之 外 的 基本 块 





的 出 口 点 ) 的 可 能 路 径 的 执行 效果 。 请 注意 ， 按 照 第 〈1) 行 所 构造 的 
拓扑 排序 ，R 的 所 有 前 驱 B' 必 然 在 S 之 前 的 区 域 中 。 这 样 ， 鲜 our rp 
一 定 已 经 在 算法 的 外 层 循环 的 前 面 某 次 迭代 中 由 第 〈4) 行 计算 完毕 。 


对 于 循环 区 域 ， 我 们 执行 图 9-50b 中 第 (1) 到 (4) 行 的 各 个 
又 。 其 中 ， 第 〈2) 人 
果 。 第 (3) 和 第 〈4) 行 计算 了 进行 一 次 或 多 次 迭代 之 后 在 循环 出 口 处 
的 效果 。 
在 算法 的 自 顶 向 下 扫描 中 ， 步 又 3 (a)〉 首先 把 问题 的 边界 条 件 作为 
最 顶层 区 域 的 输入 。 然 后 ， 如 果 R 直 接 包 含 于 R'， 我 们 只 需要 将 传递 函 
数 弘 ，IN [R] 应 用 到 IN [R'] 就 可 以 计算 得 到 IN [R] 。 
让 我 们 应 用 算法 9.53 来 寻找 图 9-48a 中 流 图 的 到 达 定 值 。 第 一 步 
自 底 向 上 访问 各 个 区 域 的 顺序 ， 这 个 顺序 
比如 R， re 


五 个 基本 块 的 gen 集 和 kil 集 的 值 概括 如 下 : 








B, 有 有 基 
{di, d,, ds|! | d4 | { ds } {de! 





{ds, ds, de! | dg | { ad3 } { ad } 





请 回忆 一 下 9.7.4 节 中 对 gen-kill 形 式 的 传递 函数 的 简化 后 的 规则 : 
。 a 只 要 计算 gen 集 合 的 并 集 和 kil 集 合 的 交 


。 组合 传递 函数 时 ， 计 算 两 个 函数 的 gen 集 的 并 集 和 kill 集 的 并 集 。 但 
是 这 个 规则 有 一 个 例外 ， 当 一 个 表达 式 被 第 一 个 函数 生成 且 没 有 被 
第 二 个 函数 生成 ， 同 时 又 被 第 二 个 函数 杀 死 的 时 候 ， 这 个 表达 式 不 
在 最 后 的 gen 中 。 

在 计算 一 个 传递 函数 的 闭 包 时 ， 保 持原 来 的 gen 集 合 ， 但 是 用 @ 巷 

代 原 来 的 kill 集 合 。 


前 面 的 五 个 区 域 RI，...，Rs 分 别 是 基本 块 Bl|，...，Bs。 对 于 
1<i<5, JR IN[B, ] 都 是 单元 函 数 ， JR OUT[B ,] 是 Bi 的 传递 函数 : 





fp OUT[B ] 《全 ) 兰 ( 充 — killp ) Ugenp 


算法 9.53 的 第 二 步 构 造 的 其 他 传递 函数 如 图 9-51 中 。 区 域 Re 由 区 域 
R，、R3 和 Rs 组 成 ，Re 代 表 该 循环 的 循环 体 ， 因 此 不 包含 回 边 B4 一 B,。 


对 这 些 区 域 的 处 理 顺序 就 是 它们 的 唯一 的 拓扑 排序 : 


R，。、R3、R4。 首 先 


请 记 住 边 B4 一 Bs 到 达 了 Re 之 外 ，R, 在 Re 中 没有 前 驱 。 因 此 大, iB, 是 


单元 函数 D4， 而 fr,, ouT[8,] 是 Bs 本 里 的 传递 函数 。 












二 和 





fre, IN[R2] 
f Re,OUTLB2] 
fRe,IN[Rs] 

fRe,OUTL[Bs] 
fRe,IN[R4] 

fre,OUT 
fR;,IN[Re] 


= fRs,OUTL[LB2] 9 fRe,IN[R2] 
= fR6,OUTIB2] 

a fRs,OUTLBs] © fRe,IN[R3] 
= fRe,OUTIB2] 人 frRe,OUTLBs] 
= frs,OUTIB4] © fRe,IN[R4) 






Bal 












{da4, ds, de} 
{da, ds, de} 
{da, ds, de} 


二 fRe,OUTLB4] 
fR7,OUT Bs] 一 fRe,OUT[Ba] 9 fR7,IN[Re] 
,OUT = frRo,OUT[B4] o JINURa] 
fRg,IN[R1] = 了 
fRs,OUT Bi 一 fR1,OUT[B1] 
fRs,IN[R7] = fRs,OUTIB1] 
frs,OUT B3] 一 JR ,OUTIBs] 2 fRs,INIR7] 
frRs,OUTIBs] = frR;,OUTIBs] ° fRg,INIR7)] 
] 
] 





Ba] 






















{di1, d2, ds} 

{di1, d2, da} 
{qd2, da, ds, de} 
{ds, da, ds, de} 
{d2, ds, da, ds, de} 
{dz2, ds, da, ds, de} 












fRs,IN[Rs] = fRs,OUTIBs] 人 fRs,OUTIB4] 


frs,OUTIBs] = frRs,OUTIBs]° frg,IN[Rs] 





图 9-51 使 用 基于 区 域 的 流 分 析 计 算 图 9-48a 中 流 图 的 传递 泡 数 

区 域 B3 的 头 结 点 有 一 个 Re 中 的 前 驱 ， 即 R,。 到 达 它 的 入 口 处 的 传 北 
函数 就 是 到 达 B, 出 口 处 的 传递 函数 fR, ouTN[B,]。 这 个 函数 已 经 被 计 算 
国 来 : 我 们 把 这 个 函数 和 B, 的 传递 函数 组 合 起 来 ， 计算 出 到 达 Bs 出 口 处 





的 传递 函数 。B3 就 在 由 它 上 自身 组 成 的 区 域 中 。 


最 后 ， 因 为 B;? 和 B3 者 是 R4 的 头 结 点 B4 的 前 驱 ， 对 于 到 达 


的 传递 函数 ， 我 们 必须 计算 


JR OUT[ B, ] Mfa., OUT[B; ] 


{di, ds} 
{di, d2} 


{da, ds, de} 
{da, ds, de} 
{d1, ds} 
{di1, d2} 
{di1} 
{di} 











Rs 入 口 处 


这 个 传递 函数 和 传递 函数 JR OUT[ Bs ] ] 组 合 ， 得 到 我 们 想 要 的 函数 
fr, ,out[18,]。 请 注意 ， 比 如 ，ds 没 有 在 这 个 冰 数 中 被 杀 死 ， 因 为 路 径 
B, 一 Bs 没有 对 变量 a 重新 定 值 。 


现在 考虑 循环 区 域 Rj。 它 只 包含 一 个 表示 它 的 循环 体 的 区 域 Re。。 因 
为 只 有 一 个 到 达 Re 的 头 结 点 的 回 边 B4 -~B，， 代 表 这 个 循环 体 执行 0 次 或 
者 多 次 的 传递 函数 就 是 大 ,ourra 1]: 这 个 函数 的 gen 集 合 是 {d4， d5， 

} ， 而 kill 集 合 是 。 区 域 Rv 有 两 个 出 口 ， 即 基本 块 B3 和 B4。 因 此 ， 这 
个 传递 函数 和 Re 的 各 个 传递 函数 相 组 合 ， 得 到 对 应 于 Rv 的 传递 函数 。 请 
注意 某 些 定 值 ， 比 如 du， 是 怎样 因为 路 径 B, ,Bs B,B3， 其 至 路 径 
B, Bs-By 一 B, Bs 的 原因 而 被 加 入 到 消 数 fr,, ourrs,] 的 gen 集 中 去 
的 。 


最 后 考虑 区 域 Re， 即 整个 流 图 。 它 的 子 区 域 是 Ri、Ry 和 Rs。 2 
按 巾 a 样 ， nn 
是 一 个 单元 函数 ， 而 传递 函 数 fr,， OUT 8 是 fn , OUT ， 也 就 是 户 。 


Rz 的 涉 结 点 B, 只 有 一 个 前 驱 B1， 因 此 到 达 它 的 入 口 的 传递 函数 就 是 
Ra 中 从 Bi 离开 的 传递 函数 。 我 们 把 fr ouris,]1 和 Ryz 中 到 达 B3 和 Bs 出 口 处 
的 传递 函数 相 组 合 ， 得 到 它们 在 Re 中 相应 的 传递 函数 。 最 后 我 们 考虑 
Rs， 它 的 头 结 点 Bc 在 Re 中 有 两 个 前 驱 ， os 因此 ， 我 们 计算 
JR OUT[ Bs] AfR,, OuT[B,] Ln IN[ 因为 基本 块 B: 的 传递 函数 
是 单元 函数 ， 因此 fi， OUT[ Bs ] =.JR IN[B;] 


第 三 步 根据 传递 函数 计算 实际 的 到 达 定 值 。 在 步骤 3 (a) ， 

IN [Ras] = 外 ， 因 为 在 程序 的 开头 没有 到 达 定 值 。 图 9-52 显 示 了 步骤 

3 (b) 是 如 何 计算 其 余 的 数据 流 值 的 。 这 个 步骤 从 Rs 的 各 个 子 区 域 开 
始 。 因 为 从 Rs 的 开始 处 到 它 的 各 个 子 区 域 开始 处 的 传递 函数 已 经 计算 出 
来 了 ， 通 过 简单 地 应 用 这 些 传递 函数 就 可 以 找到 各 个 子 区 域 的 开始 处 的 
数据 流 值 。 我 们 重复 这 个 步骤 ， 直 到 得 到 各 个 叶子 区 域 的 数据 流 值 为 
止 。 这 些 叶 子 区 域 就 是 各 个 基本 块 。 请 注意 ， 图 9-52 中 显示 的 数据 流 值 
和 我 们 对 相同 流 图 应 用 迭 代数 据 流 分 析 技 术 而 得 到 的 值 是 完全 一 致 的 。 
当然 ， 这 两 组 值 必须 一 致 。 














0 

JRsINIRJUNLRs]) 
fRs,IN[R7I (IN [Rs]) 
fRs,IN[RsI (IN[Rs]) 
fR7,INIReI (IN[R?7]) 
fR,IN[Ra (IN [Re]) 
fR6,INIRs] (IN[Re]) 
fR6,INIR2] (IN[Re)) 


, d2, ds} 
, da, d4, ds, de} 
, d2, ds, da, ds, de } 
, d3, da, ds, de } 
y , da, da, ds, de} 
, d2, ds, da, ds, de } 








图 9-52 ”基于 区 域 的 流 分 析 的 最 后 一 步 
9.7.6 ”处 理 不 可 归 约 流 图 


如 果 预 计 到 需要 用 编译 器 或 其 他 程序 处 理 软 件 进 行 处 理 的 程序 中 经 
常会 有 不 可 归 约 流 图 ， 那 么 我 们 建议 使 用 达 代 算法 ， 而 不 是 基于 层次 结 
构 的 方法 来 解决 数据 流 分 析 问 题 。 但 是 ， 如 果 我 们 只 准备 侦 尔 处 理 一 下 
不 可 归 约 流 图 ， 那 么 使 用 下 面 的 “ 结 点 分 割 ” 技 术 束 足够 了 。 


首先 尽 可 能 依据 目 然 循环 构造 区 域 。 如 果 流 图 是 不 可 归 约 的 ， 我 们 
会 友 现 得 到 的 流 图 包含 环 ， 但 是 没有 回 边 ， 因 此 我 们 不 能 进一步 对 这 个 
流 图 进行 分 析 。 在 图 9-53a 中 显示 了 一 种 典型 的 情形 。 这 个 流 图 和 图 9-45 
中 的 不 可 归 约 流 图 具有 同样 的 结构 ， 但 是 就 像 图 9-53 中 的 结 皮 内 的 小 结 
点 所 显示 的 ， 这 个 流 图 的 结 点 可 能 实际 上 是 一 个 复杂 的 区 域 。 


我 们 选取 一 个 具有 多 个 前 驱 ， 且 不 是 整个 流 图 的 头绪 点 的 区 域 R。 

如 有 果 R 有 k 个 前 驱 ， 那 么 建立 k 个 对 应 于 R 的 整个 流 图 的 拷贝 ， 并 将 R 的 头 
结 点 的 Kk 个 前 驱 分 别 连接 到 不 同 的 拷贝 。 请 记 住 ， 只 有 一 个 区 域 的 头 才 
可 能 具有 区 域 之 外 的 前 驱 。 我 们 只 是 给 出 《而 不 准备 证 明 ) 下面 的 结 

论 : 这 样 的 结 点 分 割 的 结果 是 ， 在 寻找 新 的 回 边 并 构造 出 这 些 回 边 的 区 
域 之 后 ， 区 域 的 个 数 至 少 减少 了 一 。 这 样 得 到 的 流 图 可 能 还 是 不 可 归 约 
的 ， 但 是 我 们 可 以 不 断交 蔡 进 行 两 个 步骤 : 结 点 分 割 步 又， 寻找 新 目 然 
循环 并 将 其 塌 缩 为 单个 结 点 的 步 又。 最 终 我 们 会 得 到 单个 区 域 ， 即 流 图 
己 经 被 完全 归 约 。 














图 9-53 复制 一 个 区 域 使 得 一 个 不 可 归 约 流 图 变 成 可 归 约 的 


[ 图 9-53b 中 显示 的 结 点 分 割 把 边 Rob ,Rs 变 成 了 一 个 回 边 ， 因 为 
现在 R3 支 配 Rob。 因 此 这 两 个 区 域 可 以 合 二 为 一 。 得 到 的 三 个 区 域 
Ri、Rzs 及 新 产生 的 区 域 一 组 成 了 一 个 新 的 无 环 的 流 图 ， 因 此 可 能 被 
组 合 到 单个 循环 体 区 域 中 。 这 样 我 们 就 把 整个 流 图 归 约 为 单个 区 域 。 一 
般 来 讲 ， 可 能 还 需要 更 多 的 分 割 处 理 ， 在 最 坏 的 情况 下 ， 最 后 得 到 的 基 
本 块 的 个 数 可 能 和 原 流 图 中 基本 块 的 个 数 成 指数 关系 。 


我 们 想 要 的 是 针对 原 流 图 的 答案 。 因 此 我 们 还 必须 考虑 对 分 割 所 得 
2 0 的 关系 。 我 们 可 以 考虑 两 个 方 
法 : 


1) 分 割 区 域 可 能 有 益 于 优化 过 程 ， 我 们 可 以 简单 地 修订 这 个 流 图 
使 得 只 有 茶 些 基本 块 被 复制 。 到 达 每 个 基本 块 副本 的 路 径 可 能 只 是 到 达 
原 基 本 块 的 路 径 的 一 个 子 集 。 因 此 相对 于 原 基 本 块 上 的 数据 流 值 而 言 ， 
在 这 些 基 本 块 副 本 上 的 数据 流 值 可 能 包含 更 加 精确 的 信息 。 比 如 ， 到 达 
每 个 基本 块 副本 的 定 值 要 少 于 到 达 原 基本 块 的 定 值 。 


2) 如 果 我 们 希望 不 是 真 的 分 割 而 是 想 保留 原来 的 流 图 ， 那 么 在 分 
析 完 分 割 所 得 的 流 图 之 后 ， 我 们 可 以 查看 每 个 被 分 割 基 本 块 B， 以 及 它 
对 应 的 拷贝 集合 B1，B,，.…，Bl。 我 们 可 以 计算 IN [B] =IN [Bj] 
AIN [LB,] 入 .AIN [Bl ， 并 且 类 似 地 计算 OUT 值 。 


























9.7.7 9.7 节 的 练习 


练习 9.7.1: 对 于 图 9-10 的 流 图 〈 见 9.1 节 中 的 练习 ) : 


1) 寻找 所 有 可 能 的 区 域 。 但 是 你 可 以 忽略 区 域 列表 中 那些 只 有 一 
个 结 点 且 没 有 边 的 区 域 。 


2) 给 出 算法 9.52 所 构造 的 散 套 区 域 的 集合 。 


3) 按照 9.7.2 节 中 “为 什么 叫做 可 归 约 的 ”部 分 中 所 描述 的 方法 ， 给 
出 该 流 图 的 一 个 Tj-T; 归 约 。 


练习 9.7.2: 在 下 列 流 图 上 重复 练习 9.7.1: 

1) 图 9-3。 

2) 图 8-9。 

3) 你 在 练习 8.4.1 中 得 到 的 流 图 。 

4) 你 在 练习 8.4.2 中 得 到 的 流 图 。 

练习 9.7.3: 证 明 每 个 自然 循环 都 是 一 个 区 域 。 


! ! 练习 9.7.4: 说 明 一 个 流 图 是 可 归 约 的 当 且 仪 当 它 可 以 按照 下 列 
方式 被 转化 成 为 单一 结 点 : 


1) 9.7.2 节 的 “为 什么 叫做 可 归 约 的 ?部 分 中 描述 的 Ti 和 T> 运 算 。 
2) 9.7.2 节 中 引入 的 区 域 定义 。 


! 练习 9.7.5: 说 明 如 果 你 对 一 个 不 可 归 约 流 图 应 用 结 点 分 割 技术 ， 
然后 对 分 割 后 得 到 的 流 图 进行 Ti-T> 归 约 ， 你 最 后 得 到 的 流 图 的 结 点 一 
定 严 格 少 于 原 流 图 的 结 反 数目 。 


! 练习 9.7.6: 如 果 你 交 蔡 地 使 用 结 点 分 市 技 术 和 Tj-T, 归 约 来 归 约 
一 个 具有 n 个 结 点 的 完全 有 向 图 ， 会 发 生 什么 情况 ? 





9.8 ”符号 分 析 


在 本 节 中 ， 我 们 将 使 用 符号 分 析 来 说 明基 于 区 域 的 分 析 技 术 的 使 
用 。 在 这 个 分 析 中 ， 我 们 用 符号 表示 的 方式 跟 踊 程序 中 的 变量 的 值 ， 把 
这 些 变 量 的 值 表示 为 关于 输入 变量 及 其 他 变量 的 表达 式 。 我 们 把 这 些 变 
量 称 为 参考 变量 。 用 同一 组 参考 变量 来 表示 变量 的 值 可 以 描绘 出 这 些 变 
量 之 间 的 关系 。 符 号 分 析 可 以 被 用 于 多 种 目的 ， 比 如 优化 、 并 行 化 和 用 
于 程序 理解 的 分 析 。 


考虑 图 9-54 中 的 简单 程序 的 例子 。 这 里 我 们 使 用 x 作为 唯一 的 
参 专 八 和 量 。 符 号 分 析 会 发 现在 第 2 行 和 第 3 行 中 分 别 对 y 和 z 赋 值 的 语句 执 
行 之 后 ，y 和 z 的 值 分 别 是 x-1 和 x-2。 这 个 信息 是 很 有 用 的 。 比 如 ， 可 以 
用 来 确定 在 第 4 行 和 第 5 行 中 的 赋值 语句 将 会 在 不 同 的 内 存 位 置 上 进行 写 
运算 ， 因 而 是 可 以 并 行 执行 的 。 并 且 ， 我 们 还 可 以 指出 条 件 z>x 永 远 不 
可 能 为 真 ， 从 而 允许 优化 程序 把 第 6 行 和 第 7 行 的 条 件 语句 全 部 删除 。 








= input() ; 


让 【《 务 于 
广 ， 





图 9-54 说 明 符 号 分 析 动 机 的 一 个 例子 程序 





9.8.1 参考 变量 的 仿 射 表达 式 





因为 我 们 不 可 能 为 所 有 计算 得 到 的 值 创 建 一 种 简洁 而 又 封 朵 的 符号 
表达 式 ， 所 以 选择 了 一 个 抽象 域 ， 并 且 使 用 域 中 的 最 精确 的 表达 式 来 近 


似 表达 计算 结果 。 在 此 之 前 我 们 已 经 看 到 了 这 个 策略 的 一 个 例子 : 常量 
传播 。 在 常量 传播 中 ， 我 们 的 抽象 域 由 所 有 常量 值 和 特殊 符号 UNDEF 
及 NAC 组 成 。 其 中 ，UNDEF 表 示 我 们 尚未 决定 该 值 是 否 为 常量 ， 而 当 
已 经 发 现 一 个 变量 不 是 常量 的 时 候 使 用 NAC。 


我 们 在 这 里 给 出 的 符号 化 分 析 技 术 尽 可 能 地 把 值 表 示 成 为 参考 变量 
的 仿 射 表达 式 。 如 果 一 个 关于 变量 vy，V，.…，w 的 表达 式 可 以 被 表示 
为 cotciVi+.….+cnvn， 那 么 这 个 表达 式 束 是 仿 射 的 ， 其 中 co, cl ...，& 
都 是 常量 。 这 样 的 表达 式 也 被 非 正式 地 称 为 线性 表达 式 。 严 格 地 讲 ， 只 
有 当 co=0 的 时 候 ， 仿 射 表达 式 才 是 线性 的 。 我 们 对 仿 射 表达 式 感 兴 趣 的 
原因 是 循环 中 的 数组 下 标 经 常 可 以 表示 成 仿 射 表达 式 一 一 这 些 信息 可 用 
于 优化 和 并 行 化 处 理 。 在 第 11 章 中 ， 我 们 将 更 详细 地 讨论 这 个 主题 。 


归纳 变量 


一 个 仿 射 表达 式 不 一 定 只 能 使 用 程序 变量 作为 参考 变量 ， 它 也 可 以 
使 用 一 个 循环 的 迭代 次 数 作 为 参考 变量 。 如 果 一 个 变量 在 某 个 程序 点 上 
的 值 能 够 被 表示 为 itco， 其 中 i 是 包含 该 程序 点 的 最 内 层 循环 的 迭代 次 
数 ， 那 么 这 个 变量 称 为 归纳 变量 (induction variable) 。 


考虑 代码 片断 


for (m = 10; m < 20; m++) 
{ x = m*+3; A[x] = 0; } 


假设 我 们 为 该 循环 引入 一 个 变量 来 表示 已 执行 的 迭代 次 数 。 在 循环 第 
一 次 迭代 时 ，i 的 值 是 0， 第 二 次 迭代 的 时 候 i 的 值 是 1， 以 此 类 推 。 我 们 
可 以 把 变量 m 表 示 成 为 的 一 个 仿 射 表达 式 ， 也 就 是 m=i+10。 变 量 x， 也 
就 是 3m， 在 循环 的 连续 迭代 中 的 取 值 是 30，33，...，57。 因 此 x 具 有 仿 
射 表达 式 x=30+3i。 我 们 说 m 和 x 都 是 这 个 循环 的 归纳 变量 。 


把 变量 表示 成 为 循环 次 数 的 仿 射 表 达 式 使 得 我 们 可 以 直接 计算 该 变 
量 在 各 次 迭代 中 的 值 ， 而 且 能 够 实现 多 种 代码 转换 。 一 个 归纳 变量 在 循 
环 的 各 次 迭代 中 所 取 的 值 可 以 通过 加 法 运算 ， 而 不 是 乘法 运算 计算 得 
到 。 这 个 转换 称 为 “强度 消减 ?。 它 已 经 在 8.7 节 和 9.1 节 中 介绍 过 了 。 比 
ES 









































x = 27; 
for (m= 10; m < 20; m++) 
{x= x+3; ALx]j = 0; } 


另外， 请 注意 在 该 循环 中 被 赋予 0 值 的 内 存 位置 ， 即 &A+30， 
&A+33，..….，&A+57， 也 都 是 循环 迭代 次 数 的 仿 射 表达 式 。 实 际 上 ， 这 
些 整数 值 是 该 循环 中 唯一 需要 进行 计算 的 值 ， 我 们 只 需要 保留 m 或 x 中 
的 一 个 。 上 面 的 代码 可 以 直接 蔡 换 为 下 面 的 代码 : 


for (x = &A+30; x <= &A+57; x = x+3) 
*X = 0; 


除了 加 快 计算 速度 ， 符 号 化 分 析 对 于 实现 并 行 化 也 是 有 用 的 。 当 循 
环 中 的 数组 下 标 是 循环 友 代 次 数 的 仿 射 表达 陈 时 ， 我 们 可 以 考虑 不 同 迭 
代 中 的 数据 访问 的 关系 。 比 如 ， 我 们 可 以 指出 在 每 次 迭代 中 个 写 入 的 内 
存 位 置 是 不 同 的， 因此 循环 的 全 部 迭 代 可 以 在 不 同 的 处 理 器 上 并 行 执 
行 。 这 样 的 信息 在 第 10 章 和 第 11 半 中 被 用 来 从 顺序 程序 中 抽取 并 行 性 。 


其 他 参考 变量 
如 果 一 个 变量 不 是 我 们 已 选取 的 参考 变量 的 线性 函数 ， 我 们 还 可 以 


ni 
广 ， 














a = f(); 
b=a+ 10; 
c= a+ 11; 


里 然 在 上 面 的 函数 调用 之 后 a 的 值 本 里 不 能 锌 表示 成 任何 参考 变量 的 线 
性 函数 ， 但 它 仍 可 以 被 用 作 后 继 语句 的 参考 变量 。 比 如 ， 使 用 a 作为 参 
考 变量 ， 我 们 就 可 以 发 现在 程序 的 结尾 处 c 比 b 大 1。 


人 本 节 中 多 次 使 用 的 例子 是 基于 图 9-55 中 显示 的 源 代码 的 。 其 中 
内 层 循 环 和 外 层 循环 是 很 容易 理解 的 ， 因 为 除了 在 for 循 环 的 头 部 ，f 
和 g 的 值 都 没有 被 改变 。 因 此 有 可 能 把 f 和 g 蔡 代为 分 别 对 外 层 和 内 层 循 
环 的 迭代 次 数 进行 计数 的 参考 变量 i 和 和 j。 也 就 是 说 ， 我 们 可 以 令 伍 i+99 
和 g=j+9， 然 后 把 f 和 和 g 完 全 痊 换 掉 。 在 翻译 成 中 间 代码 时 ， 我 们 可 以 利 
用 每 个 循环 至 少 会 迭代 一 次 的 信息 ， 把 对 i<100 和 js<10 的 测试 推迟 到 循环 


的 尾部 进行 。 在 图 9-55 的 代码 中 引入 ij 和 j， 并 把 for 循 环 当 作 repeat 循 环 处 
理 之 后 ， 就 可 以 得 到 如 图 9-56 中 显示 的 流 图 。 


100; f < 200; f++) { 
a 3 


Op ~ 加 OODLD- 
NA 
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十 
if ig100 goto B, 














图 9-56 ” 例 9.58 的 流 图 和 它 的 区 域 层次 结构 


可 以 友 现 ，a、b、c 和 d 都 是 归纳 变量 。 在 代码 的 每 一 行 上 赋 给 这 些 
变量 的 值 的 序列 被 显示 在 图 9-57 中 。 我 们 将 看 到 ， 我 们 可 以 找 出 用 参考 











变量 i 和 j 表 示 的 这 些 变量 的 仿 射 表达 式 。 它 们 是 ， 在 第 4 行 的 a=i， 第 7 行 
的 d=10i+j-1 和 第 8 行 的 c=j。 


行 | 变量 | j=1,…,10|1j7=1,…,10|17=1,:…,10 j=1,.……,10 
2 1 





3 记 中 二 

4 b | 10 20 

7 d | 10,…… ,19 205 "7 
8 c 1,...,10 1,…， 


图 9-57 例 9.58 中 的 各 个 程序 点 上 看 到 的 值 的 序列 


9.8.2 ”数据 流 问 题 的 公式 化 





这 个 分 析 寻 找 关 于 茶 些 参考 变量 的 仿 射 表达 式 。 这 些 参考 变量 包括 
(1) 用 于 对 各 个 循环 所 执行 的 达 代 进行 计数 的 参考 变量 ， (2) 在 必要 
时 存放 区 域 入 口 处 的 值 的 参考 变量 。 这 个 分 析 也 可 以 找到 归纳 变量 、 循 
环 不 变 表达 陈 以 及 种 量 。 这 里 音量 可 以 看 作 是 仿 射 表达 式 的 退化 情况 。 
ee 
太守 


数据 流 值 : 符号 化 映射 


这 个 分 析 使 用 的 数据 流 值 的 域 是 符号 化 映射 ， 它 是 将 程序 中 的 变量 
映射 到 值 的 函数 。 这 个 值 可 以 是 一 个 参考 值 的 仿 射 函数 或 者 表示 非 仿 射 
表达 式 的 特殊 符 写 NAA。 如 果 只 有 一 个 变量 ， 那 么 相应 半 格 的 底 元 素 值 
就 是 一 个 把 该 变量 映射 为 NAA 的 映射 。n 个 变量 的 半 格 就 是 各 个 变量 的 
半 格 的 积 。 我 们 使 用 mNAA 来 表示 这 个 半 格 的 砌 元 系 ， 它 把 所 有 变量 都 
映射 为 NAA。 就 像 在 常量 传播 中 所 做 的 那样 ， 我 们 可 以 把 顶层 数据 流 值 
定义 为 把 所 有 变量 都 映射 为 一 个 未 知 值 的 符号 化 映射 。 但 是 ， 在 基于 区 
域 的 分 析 中 我 们 不 需要 项 元 素 的 值 。 


图 9-58 显 示 了 例 9.58 的 代码 中 和 各 个 基本 块 关联 的 符号 化 映 
才 。 我 们 将 在 稍 后 看 到 如 何 发 现 这 些 映 射 ， 它 们 是 在 图 9-56 的 流 图 上 进 
行 基于 区 域 的 数据 流 分 析 的 结果 。 

















IN[B1| NAA 
OUT[BI| NAA 
IN[B,| NAA 
OUT[B?] NAA 
IN[Bs] NAA 
OUT[B3| I = 1 
IN[B4| 10i+j-—1 
OUT[Bal 10i+7;—11 




































j = 1; j <= 10; j++) { 
d = 10*i + j -1; 
c= jj; 


图 9-59 ”将 图 9-55 的 代码 中 的 赋值 语句 替换 为 关于 参考 变量 1 和 j 的 仿 射 表达 式 之 后 的 代码 


和 程序 入 口 相 关联 的 符号 化 映射 是 nNAA。 在 Bi 的 出 口 处 ，a 的 值 被 
设置 为 0。 在 B， 的 入 口 处 ， 在 第 一 次 迭代 时 a 的 值 是 0， 然 后 在 每 一 次 外 
层 循环 的 迭代 中 都 增加 一 。 因 此 ， 在 进入 第 i 次 迭代 时 其 值 为 i-1， 在 迫 
代 结 束 时 为 1。 因 为 变量 bp、c、d 在 外 层 循环 入 口 处 的 值 未 知 ， 所 以 在 B， 
入 口 处 的 符号 化 映射 把 5、c、d 了 映射 到 NAA。 到 现在 为 止 ， 它们 的 值 依 
赖 于 外 层 循环 的 迭代 次 数 。 在 B, 出 口 处 的 符号 化 映射 反映 了 该 基本 块 中 
对 a、b 和 c 赋 值 的 语句 的 运行 效果 。 其 他 的 符号 化 映射 可 以 用 类 似 的 方 
法 推导 得 到 。 一 旦 我 们 确认 图 9-58 中 的 映射 是 有 效 的 ， 就 可 以 把 图 9-55 
中 对 a、b、c 和 d 的 赋值 替换 为 适当 的 仿 射 表达 式 。 也 就 是 说 ， 我 们 可 以 
把 图 9-55 蔡 换 为 图 9-59 中 的 代码 。 


单个 语句 的 传递 函数 

这 个 数据 流 问题 中 的 传递 函数 根据 符号 化 映射 计算 得 到 新 的 符 扎 化 
上 映射。 为 了 计算 一 个 赋值 语句 的 传递 函数 ， 我 们 解 杰 该 语句 的 语义 ， 并 
决定 被 赋值 的 变量 能 否 被 表示 为 赋值 语句 右边 的 值 的 仿 射 表达 式 。 所 有 
其 他 变量 的 值 保 持 不 变 。 

一 个 语句 s 的 传递 函数 记 为 f,， 其 定义 如 下 : 

1) 如 果 s 不 是 一 个 赋值 语句 ， 那 么 f 束 是 一 个 单元 函数 。 


2) 如 果 s 是 一 个 对 x 赋值 的 语句 ， 那 么 





m(v) 对 于 所 有 的 变量 vx 
co +cim(y) +c2m(z) 如 果 x 被 赋值 为 co +cly +c2z， 
人 (mm) (x) = (cl =0, 或 者 m(y) 关 NAA), 并 且 
(cz =0, 或 者 m(z) 关 NAA) 
NAA 否则 


其 中 表达 式 cotcim (y) +cm 〈z) 用 来 表示 所 有 可 能 出 现在 对 x 赋 值 的 
语句 的 右 部 、 关 于 变量 y 和 z 的 各 种 形式 的 表达 式 。 这 些 表 达 式 癌 x 赋 了 予 
的 值 是 变量 之 前 的 值 的 一 次 仿 射 变换 的 结果 。 这 些 表达 式 是 co，co+y， 
co-y，y+z，xXx-y，ci*y 和 y/ (1/c1 ) 。 请 注意 ， 在 很 多 情况 下 ，co、cl1 和 c， 
中 的 一 个 或 者 多 个 的 值 为 0。 


例 9.60 如 果 该 赋值 语句 是 x=y+z， 那么 co=0 而 cl1=co=1。 如 果 访 赋值 表 
达 式 是 x=y/5， 那 么 co=cz= 0 而 cl1=1/5。 





关于 值 映 射 上 的 传递 函数 的 注意 事项 
我 们 定义 符号 化 映射 上 的 传递 函数 的 方法 中 有 一 个 微妙 之 处 ， 即 





可 以 选择 不 同 的 方式 来 表示 一 个 计算 的 效果 。 如 果 上 是 一 个 传递 函数 
的 输入 映射 ， 那 么 m (x) 实际 上 表示 的 是 “变量 x 在 入 口 处 可 能 具有 

的 任何 值 ?。 我 们 努力 答 试 把 该 传递 函数 的 结 末 表示 为 输入 映射 中 用 

到 的 参考 变量 的 仿 射 表达 式 。 











你 应 该 知道 对 f (m) (x) 这 样 的 表达 式 的 正确 解释 ， 其 中 人 是 一 
个 传递 函数 ，m 是 一 个 映射 ， 而 x 是 一 个 变量 。 按 照 数 学 上 的 约定 ， 
我 们 从 左边 开始 应 用 函数 ， 也 就 是 说 我 们 首先 计算 f (m) ， 结 果 是 
随后 我 们 可 以 把 它 应 用 于 一 个 变量 x 
并 得 到 一 个 值 。 








传递 函数 的 组 合 


令 和 和 允 是 两 个 以 其 输入 映射 m 来 定义 的 传递 函数 。 为 了 计算 户 。 万 
， 我 们 把 f 的 定义 中 的 m (v;) 的 值 蔡 换 为 f Cm) (v;)〉 的 定义 。 我 们 
把 所 有 对 NAA 的 运算 都 蔡 换 为 NAA。 也 束 是 : 


1) 如 果 f, (m) (v) =NAA, 那么 (fof1) (m) (v) =NAA。 
2) 如 果 f,(m) (v) =co+yicin (vi) ， 那 么 


NAA 如 果 对 于 某 个 iz0, cz0 且 fi(m) (vi) =NAA 


车 {> | 


例 9.58 中 的 各 个 基本 块 的 传递 函数 可 以 通过 把 组 成 它们 的 语句 
时 数组 合 起 来 计算 得 到 。 这 些 传递 函数 在 图 9-60 中 定义 。 


数据 流 问题 的 解决 方法 


我 们 使 用 INi, ; [B3]」 和 OUTi, ; LB3]」 来 表示 在 内 层 循环 的 第 j 次 迭 
代 和 外 层 循环 的 第 i 次 迭代 时 基本 块 B 的 输入 和 输出 数据 流 值 。 对 于 其 
他 的 基本 块 ， 我 们 使 用 IN; [B,] 和 OUT; [Bi] 来 表示 在 外 层 循环 的 第 i 
次 迭代 时 的 相应 数据 流 值 。 我 们 还 可 以 看 到 ， 图 9-58 中 显示 的 符号 化 映 
射 满足 传递 函数 给 出 的 约束 。 这 些 约束 在 图 9-61 中 列 出 。 











A 





图 9-60 例 9.58 的 传递 函数 


OUTIBi = fB(IN[Bk])， 对 所 有 的 Bk 
ouT[Bi| > INi1[B,| 
OUT;[B,| 之 INi1|[ 石 3]， li<10 
OUTi,j-1[Bs] INijlBs]), 1<i<100, 2<j;<10 
OUT;,10[B3| 和 = INi[ 万 4]， 2 三 1 100 
OUT;_1[B4| 之 INi;[B,], 1 1 100 
图 9-61 详 套 循环 的 每 次 迭代 上 满足 的 约束 





第 一 个 约束 说 明 ， 一 个 基本 块 的 输出 映射 是 通过 把 基本 块 的 传递 函 
数 应 用 到 输入 映射 上 而 得 到 的 。 其 余 的 约束 说 明 ， 在 程序 执行 的 时 候 ， 
一 个 基本 英 的 输出 映射 必须 大 于 或 等 于 后 继 基本 块 的 输入 映射 。 


请 注意 ， 我 们 的 迭代 数据 流 算法 不 能 给 出 上 面 的 解 ， 因 为 它 无 法 用 
己 执 行 的 迭代 次 数 来 表达 数据 流 值 。 正 如 我 们 将 在 下 一 节 看 到 的 ， 可 以 
用 基于 区 域 的 分 析 来 找 出 这 样 的 解 。 





9.8.3 ”基于 区 域 的 符 写 化 分 析 


我 们 可 以 把 9.7 市 中 摘 述 的 基于 区 域 的 分 析 拉 术 进 行 扩展 ， 用 以 寻 
找 一 个 循环 的 第 i 次 沈 代 中 各 个 变量 的 表达 式 。 和 其 他 基于 区 域 的 算法 
样 ， 一 个 基于 区 域 的 符号 化 分 析 也 有 一 个 目 底 同上 的 处 理 过 程 和 一 个 
自 项 向 下 的 处 理 过 程 。 这 个 自 底 向 上 的 处 理 过 程 用 一 个 传递 函数 来 概括 
一 个 区 域 的 执行 效果 。 这 个 传递 函数 把 入 口 处 的 符号 化 映射 转变 为 出 口 
处 的 输出 符号 化 映射 。 在 目 顶 同 下 的 处 理 过 程 中 ， 符 号 化 映射 的 值 被 辐 
下 传播 到 内 层 区 域 。 


不 同 之 处 在 于 我 们 处 理 循环 的 方法 。 在 9.7 节 ， 循 环 的 效果 是 用 闭 
包 运 算 来 概括 的 。 给 定 一 个 其 循环 体 传递 函数 为 {的 循环 ，f 的 闭 包 被 
定义 为 在 任意 多 次 应 用 f 可 能 产生 的 所 有 效果 之 上 无 穷 多 次 应 用 交汇 运 
算 而 得 到 的 结果 。 但 是 ， 为 了 找到 一 个 归纳 变量 ， 我 们 需要 确定 一 个 变 
量 的 值 是 人 否 为 至 今 已 执行 的 欠 代 次 数 的 仿 射 函数 。 相 应 的 符号 化 映射 必 
须 把 正在 执行 的 欠 代 的 序号 作为 参数 。 不 仅 如 此 ， 只 要 我 们 知道 一 个 循 
环 执行 达 代 的 总 次 数 ， 就 可 以 使 用 这 个 数字 来 找到 循环 之 后 归纳 变量 的 

















值 。 比 如 ， 在 例 9.58 中 我 们 断定 在 执行 了 第 i 次 达 代 之 后 ，a 的 值 是 i。 
为 循环 共有 100 次 迭代 ， 在 循环 结束 的 时 候 a 的 值 一 定 是 100。 

接 下 来 ， 我 们 首先 定义 基本 运算 符 : 用 于 符号 化 分 析 的 传递 函数 的 
然后 说 明 如 何 使 用 它们 进行 基于 区 域 的 归纳 变量 
分 析 。 

传递 函数 的 交汇 运算 

当 计 算 两 个 函数 的 交 时 ， 除 非 两 个 函数 把 一 个 变量 映射 成 为 同一 个 
不 是 NAA 的 值 ， 这 个 变量 的 值 就 是 NAA。 因 此 








A 
Cp a | 0 


币 参 数 的 函数 组 合 


为 了 把 一 个 变量 表示 成 为 一 个 关于 循环 下 标的 仿 射 函数 ， 我 们 要 计 
算出 将 某 个 函数 组 合 给 定 多 次 后 的 效果 。 如 果 一 次 迭代 的 效果 可 以 用 一 
个 传递 函数 {概括 ， 那 么 对 某 个 i=0， 执 行 i 次 迭代 的 效果 记 为 ff。 请 注 
意 ， 当 i=0 时 ，fi=f0=I 是 一 个 单元 函数 。 

程序 中 的 变量 可 以 分 成 四 种 类 型 : 

1) 如 果 f (m) (x) =m (x) +c， 其 中 c 是 一 个 和 常数， 那么 对 于 所 
有 的 i 这 0, ff Cm) (x) =m (x) +ci。 如 果 一 个 循环 的 循环 体 可 以 用 传 


加 函数 f 表 示 ， 我 们 说 x 是 这 个 循环 的 一 个 基本 归纳 变量 (basic induction 
variable) 。 








2) 如 果 f (m) (x) =m (x) ， 那 么 对 于 所 有 的 i20, fi Cm) (x) 
=m (x) 。 变 量 X 没 有 被 改变 。 如 采 循 环 的 循环 体 具 有 传递 函数 f， 那 么 x 
的 值 在 循环 的 任意 多 次 达 代 结束 之 后 依然 保持 不 变 。 我 们 说 x 是 该 循环 
的 符号 化 常量 (symbolic constant) 。 





3) 如 果 f (m) (x) =co+cim (X1) +...+ch m 《Xn) ， 其 中 每 个 x 
要 么 是 基本 归纳 变量 ， 要 么 是 符 写 化 和 常量， 那么 对 于 i>0， 有 











fi Cm) (XY =eyterf (in) CX) 440 mm) 式 及) 





我 们 说 x 虽然 不 是 基本 归纳 变量 ， 但 它 依 然 是 一 个 归纳 变量 。 请 注 
， 上 述 公式 对 于 i=0 不 成 立 。 

4) 在 其 他 情况 下 , fi (m) (x) =NAA。 

要 得 到 执行 固定 多 次 迭代 的 效果 ， 我 们 只 需要 把 上 面 的 i 蔡 换 成 为 
该 迭代 次 数 即 可 。 当 迭代 次 数 未 知 时 ， 在 最 后 一 次 欠 代 开始 时 变量 的 值 
由 ff 给 出 。 在 这 种 情况 下 ， 其 值 仍 然 可 以 用 仿 射 函数 表示 的 变量 只 有 那 
些 循环 不 变 变量 。 


涡 





m(v) ”如 末 f(m)(v)=m(v) 

NAA 否则 

对 于 例 9.58 的 最 内 层 循 环 ， 执 行 i (i>0〉 次 迭代 的 效果 由 传递 
函数 /8 描述 。 根 据 fs, 的 定义 ， 我 们 看 到 a 和 b 是 符号 化 常量 。 因 为 c 在 
每 次 迭代 中 增加 一 ， 所 以 它 是 一 个 基本 归纳 变量 。 因 为 d 是 符号 化 常量 b 
和 基本 归纳 变量 c 的 仿 射 函数 ， 所 以 它 是 一 个 归纳 变量 。 由 此 可 得 ; 


f* (m) (o) -1 

















m(a) 二 
mC) 如 果 v=/ 
二 如 果 w=。 


m(b) +m(c) +i 如果 wed 


如 果 我 们 不 能 指出 基本 块 B3 的 循环 从 代 了 多 少 次 ， 那 么 就 不 能 使 用 fi， 
而 必须 使 用 f 来 表示 在 循环 结束 时 的 条 件 。 此 时 我 们 有 


m(a) 如 果 v=a 
m(b) 如 果 v=6。 
NAA 如 果 v=e 
NAA 如 果 v=d 


fy (m) (v) = 


一 个 基于 区 域 的 算法 
基于 区 域 的 符号 化 分 析 。 

输入 ， 一 个 可 归 约 的 流 图 G。 

输出 : G 的 每 个 基本 块 B 的 符号 化 映射 IN [Bj] 。 

方法 : 我 们 对 算法 9.53 做 出 如 下 的 修改 。 

1) 我 们 改变 了 为 一 个 循环 区 域 构造 传递 函数 的 方法 。 在 原来 的 算 
法 中 ， 我 们 使 用 传递 函数 fh, [s] 来 把 循环 区 域 R 入 口 处 的 符号 化 映射 
变换 为 经 过 未 知 多 次 迭代 之 后 位 于 循环 体 $ 的 入 口 处 的 符号 化 映射 。 如 
图 9-50b 所 示 ， 这 个 函数 被 定义 为 代表 了 所 有 回 到 循环 入 口 处 的 路 径 的 


传递 函数 的 财 包 。 在 这 里 ， 我 们 定义 fh， i, IN [S|] 来 表示 从 循环 区 域 入 
口 处 开始 下 到 第 i 次 碗 代 的 入 口 处 的 执行 效果 。 因 此 ， 








J nna = hs 
Sle Nn, 本 OUTIB] ) 

2) 如 果 一 个 区 域 的 迭代 次 数 已 知 ， 访 区域 的 执行 效果 的 描述 是 把 
上 面 定义 中 的 i 蔡 换 为 实际 达 代 次 数 。 


3) 在 算法 的 目 顶 向 下 处 理 过程 中 ， 我 们 计算 fh, i，IN [s] 就 可 以 找 
出 与 一 个 循环 的 第 i 次 达 代 的 入 口 处 相关 的 符号 化 映 冉 。 


4) 如 果 一 个 变量 的 输入 值 m (v) 被 区 域 R 中 的 某 个 符号 化 映射 的 
右 部 使 用 ， 并 且 在 该 区 域 的 入 口 处 n 〈v) =NAA， 则 我 们 引入 一 个 新 的 





参考 变量 t， 在 区 域 R 的 开始 处 加 上 赋值 语句 t=v， 并 且 所 有 对 m(v) 的 
引用 都 被 丛 换 为 (。 如 果 我 们 不 在 这 个 点 上 引入 一 个 参考 变量 ， 那 么 v 的 
取 值 NAA 将 被 传递 到 内 层 循 环 。 


RS 对 于 例 9.58， 我 们 在 图 9-62 中 显示 了 该 程序 的 传递 函数 是 如 何 
竺 得法 的 自 底 向 上 处 理 过 程 中 被 计算 出 来 的 。 区 域 Rs 是 内 层 循 环 ， 它 的 
循环 体 是 B。。 表示 从 区 域 Rs 的 入 口 处 到 达 第 j (j>1) 次 迭代 开始 处 的 路 
径 的 传递 函数 是 js 表示 到 达 第 j 次 迭代 结尾 处 的 路 径 的 传递 函数 是 
人 


el 
fRsiINIBs] = f8, 


fRs,j,OUTLBs] fp, 


fRoINIBs] = I 
JReIN[Rs] j 5， 
fRe,OUTIBs] = To fRs,10,0UTIBs] o jp， 


i—1 
fR1,i,IN[Re] f Rs,OUTIB4] 


fR1,i,OUTIBs) JR。oUTIB4] 


fRs,IN[B1) 
fRg,IN[R?] fB 
fRs,OUTIB4] fR7,100,0UT[B4s] o jp， 





图 9-62 例 9.58 的 自 底 向 上 处 理 过 程 中 的 传递 函数 的 关系 


区 域 Re 由 基本 块 B, 和 Bs 以 及 它们 之 间 的 循环 区 域 Rs 组 成 。 从 Bs, 和 
Rs 的 入 口 处 开始 的 传递 函数 可 以 用 原 算法 中 的 同样 方法 来 计算 。 因 为 
fps 是 一 个 单元 函数 ， 所 以 传递 函数 fR, ourTiB,] 表 示 了 基本 块 B, 和 整个 
内 层 循 环 的 执行 效果 的 组 合 。 因 为 已 知 内 层 循 环 将 迭代 10 次 ， 所 以 我 们 
可 以 把 j 蔡 换 为 10 来 精确 摘 述 内 层 循环 的 执行 效果 。 其 余 的 传递 函数 可 
以 用 类 似 的 方式 计算 得 到 。 计 算得 到 的 实际 传递 函数 显示 在 网 9-63 中 。 


















天 一 
J Rs JIN[LBa] m(c) 十 了 一 1 | NAA 
JR hjOUTIB] m(c) 十 7 m(b) + m(c)+ 
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7—1 
fR6,INIB;) m(b) he ml(d) 
fReINIRs) Ww 十 10 m(d) 
Re,OUTIBa 10m(a) 十 10 10m(a) 十 9 












f RaINIRa] 
fR1i,i,OUTIB4] 


m(a)+i—l1|NAA NAA NAA 
m(a)+i l10m(a) + 10i | 10 l10m(a)+ 
101++9 
fRs,IN[B1] we m(c) 
fRs,IN[R7] 6 
fRs,OUTIB, J 人 


图 9-63 在 例 9. 58 的 自 底 向 上 处 理 过 程 中 计算 得 到 的 传递 函数 


在 程序 入 口 处 的 符号 化 映射 就 是 nmNAA。 我 们 使 用 自 顶 向 下 处 理 过 
程 来 计算 到 达 逐 层 仍 套 的 区 域 的 入 口 处 的 符号 化 映射 ， 直 到 我 们 得 到 了 
所 有 基本 块 的 符号 化 映射 为 止 。 一 开始 的 时 候 我 们 首 移 计算 区 域 Ra 中 的 
基本 块 B; 的 数据 流 值 : 













IN [Bi] =mNAA 
OUT [Bi] =fp: (IN [Bi] ) 
再 向 下 到 达 区 域 Rv 和 Re， 我 们 得 到 


IN;[ B, |] =fr,, iINIR1ICOUTLB]) 
OUT;| B,] =fs, (IN;[ B, |] ) 


最 后 ， 在 区 域 Rs 中 我 们 得 到 


IN; ;LB3] =fr,,;, IN[B,] (OUT;L B,|]) 
0UT; ;[ Bs] = (IN; ;[ B;]) 
毫 不 奇怪 ， 这 些 等 式 产生 的 就 是 我 们 在 图 9-58 中 显示 的 结 
例 9.58 显 示 了 一 个 简单 的 程序 ， 其 中 的 各 个 符号 化 映射 中 的 每 个 变 


量 都 有 一 个 仿 射 表达 式 。 我 们 使 用 例 9.65 来 说 明 为 什么 以 及 如 何在 算法 
9.63 中 引入 参考 变量 。 


考虑 图 9-64a 中 的 简单 例子 。 令 6 为 描述 内 层 循环 迭代 j 次 的 执 
行 效果 的 传递 函数 。 即 使 a 的 值 可 能 在 该 循环 的 执行 中 上 下 变动 ， 我 们 
看 到 b 是 一 个 基于 a 在 此 循环 的 入 口 处 的 取 值 的 归纳 变量 。 也 就 是 说 ， 

f(m) (b) =m (a) -1+j。 因 为 a 被 赋予 了 一 个 输入 值 ， 所 以 在 内 层 循 
环 入 口 处 的 符号 化 映射 把 映射 为 NAA。 我 们 在 该 入 口 处 引入 一 个 新 的 
参考 变量 t 来 保存 a 的 值 ， 并 像 图 9-64b 中 那样 进行 蔡 换 。 








for (i = 1; i < n; i++} { 
a = input(); 
for (j = 1; j < 10; j++) { 
a=a-1; 
bse] + a 


for (1 1 4 站 苹 
a = input(); 





b) 参考 变量 使 得 5 成 为 一 个 归纳 变量 


图 9-64 引入 参考 变量 的 需求 


9.8.4 9.8 节 的 练习 


练习 9.8.1: 对 于 图 9-10 中 的 流 图 〈 见 9.1 节 的 练习 ) ， 给 出 下 列 基 本 
块 的 传递 函数 。 


1) 基本 块 B,。 
2) 基本 块 Bs。 
3) 基本 块 Bs。 


练习 9.8.2: 考虑 图 9-10 中 由 基本 块 B3 和 Bs 组 成 的 内 层 循 环 。 如 果 i 
表示 了 该 循环 的 迭代 执行 次 数 ， 而 f 是 从 该 循环 的 入 口 〈 即 Bs 的 开始 
处 到 Bj 的 出 口 处 的 循环 体 ( 即 不 包含 By 到 Bs 的 边 ) 的 传递 函数 ， 那 么 
f 是 什么 ? 请 记 住 ，f 把 一 个 映射 m 作 为 参数 ， 而 m 给 变量 8a、b、d、e 中 
的 每 一 个 赋予 一 个 值 。 虽 然 我 们 不 知道 这 些 变量 的 值 ， 但 是 我 们 用 
m (a) 等 来 表示 它们 。 

! 练习 9.8.3: 现在 考虑 图 9-10 中 由 B，、B3、B4、Bs 组 成 的 外 层 循 
环 。 令 g 为 循环 的 入 口 处 B, 到 它 的 出 口 处 Bs 的 循环 体 的 传递 函数 。 令 i 表 
示 由 B3 和 B4 组 成 的 内 层 循 环 的 友 代 次 数 〈 我 们 无 法 知道 迭代 的 具体 次 
数 ) ， 并 令 j 表 示 外 层 循环 的 从 代 次 数 〔( 我 们 还 是 无 法 知道 迭代 的 具体 
次 数 ) 。 那 么 gj 是 什么 ? 





9.9 第 9 章 总 结 





全 局 公共 子 表达 式 : 一 个 重要 的 优化 方法 是 寻找 同一 个 表达 式 在 两 
个 不 同 基 本 块 中 的 计算 过 程 。 如 果 一 个 在 男 一 个 前 面 ， 我 们 可 以 把 
第 一 次 计算 该 表达 式 时 得 到 的 结果 存放 起 来 ， 并 在 再 次 计算 该 表达 
式 时 使 用 这 个 结果 。 

复制 传播 : 一 个 复制 语句 u=v 把 一 个 变量 v 赋 值 给 另 一 个 变量 u。 在 
有 些 情况 下 ， 我 们 可 以 把 所 有 对 u 的 使 用 替换 为 对 v 的 使 用 ， 从 而 消 
除 这 个 赋值 语句 以 及 变量 u。 

代码 移动 : 男 一 种 优化 方法 是 把 一 个 计算 过 程 移动 到 它 所 在 的 循环 
之 外 。 只 有 当 循 环 的 每 次 迭代 中 这 个 计算 过 程 都 生成 同样 的 值 ， 这 
种 改变 才 是 正确 的 。 

归纳 变量 : 很 多 循环 都 有 归纳 变量 。 这 些 变量 在 循环 执行 时 的 不 同 
迭代 中 的 取 值 是 一 个 线性 序列 。 有 些 归 纳 变 量 仪 仅 用 于 对 迭代 进行 
人 
时 间 。 

数据 流 分 析 : 一 个 数据 流 分 析 模 式 在 程序 的 每 个 点 上 都 定义 了 一 个 
值 。 程 序 的 各 个 语句 都 有 相关 联 的 传递 函数 。 这 些 函 数 给 出 了 一 个 
语句 之 前 和 之 后 的 数据 流 值 之 则 的 关系 。 具 有 多 个 前 驱 的 语句 的 值 
是 它 的 各 个 前 驱 的 值 的 组 合 。 这 个 组 合 通 过 交汇 (或 者 说 汇流 ) 了 郴 
数 计算 得 到 。 

基本 块 的 数据 流 分 析 : 因为 数据 流 值 在 一 个 基本 块 内 的 传播 过 程 通 
党 很 简单 ， 所 以 数据 流 方程 通常 给 每 个 基本 块 设置 两 个 值 ， 称 为 IN 
值 和 OUT 值 。 这 两 个 值 分 别 表 示 该 基本 块 在 开始 处 和 结尾 处 的 数据 
流 值 。 把 基本 块 中 各 个 语句 的 传递 函数 组 合 起 来 就 可 以 得 到 代表 整 
个 基本 块 的 传递 函数 。 

到 达 定 值 : 到 达 定 值 数据 流 框 架 的 数据 流 值 是 程序 中 的 语句 的 集 

合 。 这 些 语句 给 一 个 或 者 多 个 变量 定 值 。 如 果 一 个 变量 肯定 在 一 个 
基本 块 内 被 重新 定 值 ， 那 么 该 基本 块 的 传递 函数 杀 死 了 对 这 个 变量 
的 定 值 ， 同 时 它 还 加 入 (“生成”) 了 在 该 模块 中 发 生 的 对 变量 的 定 
值 。 只 要 一 个 定 值 到 达 某 个 点 的 任意 一 个 前 驱 ， 它 就 到 达 了 该 点 ， 

因此 交汇 运算 是 并 集运 算 。 

活跃 变量 : 另 一 个 重要 的 数据 流 框 架 计 算 了 在 各 个 程序 点 上 活跃 的 
(将 在 重新 定 值 之 前 被 使 用 的 ) 变量 。 这 个 框架 和 到 达 定 值 框架 类 
似 ， 但 是 传递 水 数 是 逆 回 传递 数据 流 值 的 。 一 个 变量 在 某 个 基本 块 
































的 开始 处 活跃 的 条 件 是 ， 要 么 在 该 基本 块 中 它 在 定 值 之 前 就 被 使 

用 ， I 吉 尾 处 活 

跃 。 

可 用 表达 式 : 为 了 寻找 全 局 公共 子 表达 式 ， 我 们 要 确定 各 个 程序 点 
上 的 可 用 表达 式 。 所 谓 可 用 表达 式 束 是 之 前 已 经 计算 过 ， 且 在 最 后 
一 次 计算 之 后 它 的 运算 分 量 都 没有 被 重新 定 值 的 表达 式 。 这 个 问题 
的 数据 流 框架 和 到 达 定 值 框 架 类 似 ， 但 是 其 交汇 运算 是 交集 运算 ， 
而 不 是 并 集运 算 。 

数据 流 问题 的 抽象 : 常见 的 数据 流 问 题 ， 比 如 前 面 提 到 过 的 那些 ， 
都 可 以 用 一 个 通用 的 数学 结构 表达 。 数 据 流 值 是 一 个 半 格 的 成 员 ， 

这 个 半 格 的 交汇 运算 就 是 数据 流 问 题 的 交汇 〈 汇 流 ) 函数 。 传 递 函 
数 把 半 格 元 素 映 射 到 半 格 元 素 。 要 求 传 递 函 数 的 集合 必须 对 于 组 合 
运算 封闭 ， 并 且 包 含 单 元 函数 。 

单调 框架 : 每 个 半 格 都 有 一 个 < 关系 asb 当 且 仅 当 aAb=a。 单 调 框架 
具有 以 下 性 质 : 每 个 传递 函数 都 保持 了 < 关系 。 也 就 是 说 ， 对 于 任 
意 的 格 元 素 a 和 b 以 及 传递 函数 f，a<b 列 含 了 f (a) <f (b) 。 

可 分 配 框架 : 这 种 框架 满足 下 面 的 条 件 : 对 于 所 有 的 格 元 素 a 和 Pb 以 
及 传递 函数 f，f (a 八 b) =f (a) Af (b) 。 可 以 证 明 可 分 配 框架 的 
条 件 列 含 了 单调 框架 的 条 件 。 

抽象 框架 的 和 迭代 解法 : 所 有 的 单调 数据 流 框架 可 以 通过 一 个 迭代 算 
法 来 解决 。 在 这 个 解法 中 ， 首 先 ( 按 照 不 同 的 框架 〉 适当 地 初始 化 
各 个 基本 块 的 IN 和 OUT 值 ， 然 后 应 用 传递 函数 和 交汇 运算 不 断 地 计 
算 这 些 变量 的 新 值 。 这 个 解法 总 是 安全 的 《〈 即 按照 它 的 解 对 程序 进 
行 优 化 不 会 改变 程序 所 做 的 计算 ) 。 但 是 只 有 当 框 架 是 可 分 配 的 

时 ， 这 个 解 才 一 定 是 可 能 的 解 中 最 好 的 。 

常量 传播 框架 : 虽然 诸如 到 达 定 值 这 类 的 基本 框架 都 是 可 分 配 的 ， 

但 存在 一 些 单调 但 不 可 分 配 的 框架 。 这 类 框架 中 的 一 个 例子 是 关于 
常量 传播 的 。 在 常量 传播 框架 使 用 的 半 格 中 ， 格 元 素 是 从 程序 变量 
到 常量 以 及 两 个 特殊 值 的 映射 。 这 两 个 特殊 值 分 别 代表 “无 信 

息 ” 和 “一 定 不 是 常量 ”。 

部 分 宛 余 消除 : 很 多 有 用 的 优化 ， 比 如 代码 移动 和 全 局 公共 子 表 达 
式 消除 ， 可 以 被 扩展 为 同一 个 问题 。 该 问题 称 为 部 分 见 余 消除 。 如 
果 在 某 个 点 上 需要 计算 一 个 表达 式 ， 但 是 这 个 表达 式 只 在 到 达 这 个 
点 的 部 分 路 径 上 可 用 ， 那 么 我 们 可 以 只 在 该 表达 式 不 可 用 的 路 径 上 
进行 计算 。 正 确 地 应 用 这 个 想法 要 求解 决 四 个 不 同 的 数据 流 问题 ， 

并 做 一 些 其 他 的 操作 。 

支配 结 点 : 如 果 在 一 个 流 图 中 所 有 到 达 某 结 点 的 路 径 都 必须 经 过 另 









































一 个 结 点 ， 那 么 后 一 个 络 氮 就 文 配 前 一 个 结 点 。 一 个 真 支 配 结 点 是 
不 同 于 被 支配 结 点 的 支配 结 皮 。 除 了 入 口 结 点 ， 每 个 结 点 都 有 一 个 
A 被 该 结 点 的 所 有 其 他 真 文 配 结 点 所 文 配 的 真 文 配 
流 图 的 深度 优先 排序 : 如 果 我 们 从 一 个 流 图 的 入 口 结 点 开始 对 它 进 
行 深度 优先 搜索 ， 我 们 会 得 到 一 个 深度 优先 生成 树 。 结 点 的 深度 优 
先 排序 是 这 柠 树 的 后 序 遍历 次 序 的 逆序 。 

边 的 分 类 : 当 我 们 构造 一 个 深度 优先 生成 树 之 后 ， 相 应 流 图 的 全 部 
边 可 以 分 成 三 大 类 : 前 进 边 〈 即 从 祖先 结 点 到 真 后 代 结 反 的 边 〉、 
后 退 边 ( 即 从 后 代 结 点 到 祖先 结 点 的 边 ) 和 交叉 边 ( 其 他 ) 。 生 成 
树 的 一 个 重要 性 质 是 所 有 的 交叉 边 都 是 从 树 的 右边 到 达 左 边 。 忆 一 
个 重要 性 质 是 在 这 些 边 中 ， 如 有 果 按 照 深度 优先 排序 《〈 即 后 序 次 序 的 
逆序 ) ， 只 有 后 退 边 的 头 比 它 的 尾 的 排序 更 靠 前 。 

回 边 : 回 边 就 是 其 头 结 点 文 配 尾 结 点 的 边 。 不 管 选择 流 图 的 哪 一 柠 
深度 优先 生成 树 ， 每 条 回 边 都 是 一 条 后 退 边 。 

可 归 约 流 图 : 如 果 不 管 选 择 哪 个 深度 优先 生成 树 ， 该 树 的 每 个 后 退 
边 都 是 一 条 回 边 ， 那 么 这 个 流 图 就 是 可 归 约 的 。 绝 大 部 分 流 图 都 是 
可 归 约 的 ， 控 制 流 语句 都 是 通常 的 循环 和 分 支 语句 的 程序 的 流 图 一 
定 古 可 归 约 的 。 

自然 循环 : 一 个 自然 循环 是 一 个 结 点 的 集合 。 集 合 中 有 一 个 头 结 
扩 ， 它 文 配 了 该 集合 中 的 所 有 其 他 结 皮 ， 并 且 至 少 有 一 条 回 边 进入 
这 个 头 结 把 。 给 定 任意 的 回 边 ， 我 们 可 以 构造 出 它 的 自然 循环 。 御 
环 中 包括 回 边 的 涉 结 点 ， 以 及 所 有 不 经 过 头 结 点 就 能 够 到 达 此 回 边 
的 尾 结 点 的 其 他 结 点 。 两 个 具有 不 同 头 结 点 的 自然 循环 要 么 互 不 相 
交 ， 要 么 一 个 循环 完全 包含 在 男 一 个 循环 里 面 。 这 个 性 质 使 得 我 们 
可 以 讨论 氨 侠 循环 的 层次 结构 ， 前 提 古 “循环 ” 指 的 是 自然 循环 。 
深度 优先 排序 提高 了 选 代 算 法 的 效率 : 如 果 沿 着 无 环 路 径 传播 信息 
足以 得 到 正确 结果 ， 即 环 路 不 会 增加 信息 ， 那 么 相应 的 达 代 算法 只 
需要 很 少 几 次 友 代 就 可 以 得 到 正确 结果 。 如 果 我 们 按照 深度 优先 顺 
序 访问 结 点 ， 那 么 任何 同 前 传递 信息 的 数据 流 框架 《比如 到 达 定 
值 ) 都 可 以 在 确定 次 数 内 收敛 。 收 义 次 数 不 大 于 所 有 无 环 路 径 中 的 
后 退 边 的 最 大 个 数 加 上 2。 如 果 我 们 用 深度 优先 顺序 的 逆序 《〈“ 即 后 
量 ) 也 成 立 。 

区 域 : 区 域 是 一 个 结 点 和 边 的 集合 。 区 域 中 有 一 个 头绪 点 h 文 配 了 
其 中 的 所 有 结 皮 。 除 了 h 之 外 ， 区 域 中 所 有 结 点 的 前 驱 必须 也 在 此 
区 域 中 。 区 域 的 边 集 包含 了 区 域 中 的 任意 两 个 结 点 之 间 的 边 ， 但 是 



































可 能 不 包含 茶 些 或 所 有 到 达 头 结 点 的 边 。 

区 域 和 可 归 约 流 图 : 可 归 约 流 图 可 以 被 扫描 分 析 成 为 一 个 由 区 域 组 
成 的 层次 结构 。 这 些 区 域 要 么 是 循环 区 域 ， 要 么 是 循环 体 区 域 。 循 
人 


基于 区 域 的 数据 流 分 析 : 不 同 于 友 代 方法 的 另 一 种 数据 流 分 析 方 法 
古 沿 痢 区 域 层次 结构 癌 上 然后 再 癌 下 扫 朱 ， 计 算 从 各 个 区 域 的 头 到 
达 该 区 域 中 各 个 结 点 的 传递 函数 。 

基于 区 域 的 归纳 变量 检测 : 基于 区 域 的 分 析 技术 的 重要 应 用 之 一 是 
用 以 寻找 归纳 变量 的 数据 流 框架 。 该 框架 试图 找 出 循环 区 域 中 每 个 
满足 下 面条 件 的 变量 的 公式 。 这 些 变 量 的 值 可 表示 为 循环 碗 代 次 数 
的 仿 射 〈 线 性) 函数。 
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程 。 


[3 引 原 文 如 此 ， 但 是 似乎 应 该 是 “数据 流 值 ”。 





译 者 注 


“1Implementing Quicksort Programs” , Comm. 


[4 注意 ， 路 径 中 可 能 包含 循环 ， 因 此 我 们 可 能 洛 着 这 条 路 径 到 达 
的 另 一 次 出 现 。 机 睛 况 下 ，d 没 有 被 “ 杀 死 ”。 


[5 细心 的 读者 可 能 会 注意 到 ， 可 以 很 容易 把 (1) 、 (2) 两 行 合 
并 。 但 是 ， 在 类 似 的 数据 流 算法 中 ， 初 始 化 入 口 结 点 或 出 口 结 点 时 用 的 
方法 可 能 和 初始 化 其 他 结 点 的 方法 不 同 。 因 此 我 们 依照 所 有 的 迭代 算法 
的 模式 ， ee 
始 化 动作 分 开 进 行 。 


[6] 请 注意 ， 如 在 本 章 中 通常 使 用 的 ， 我 们 使 用 运算 符 + 来 代表 一 个 
一 般 性 的 运算 符 ， 不 是 一 定 指 加 法 运算 。 


[加 索 练 可 在 9. 3 节 之 后 完成 。 


[8] 并 且 ， 如 果 我 们 把 偏 序 定 义 为 三 而 不 是 三 ， 对 于 并 集 而 言 就 不 
会 产生 这 样 的 问题 ， 但 是 对 于 交集 而 言 还 是 会 有 这 样 的 问题 。 


[8 在 这 里 及 以 后 的 讨论 中 ， 我 们 常常 会 把 “ 半 格 ”中 的 “ 半 ” 字 
去 挤 ， 国 为 像 我 们 现在 讨论 的 那些 格 部 有 一 个 并 (或 者 说 lub) 运算 
符 ， 虽 然 我 们 不 会 使 用 这 个 运算 符 。 


[10] 请 注意 ， 在 一 个 前 向 的 问题 中 ， 我 们 希望 IN [Bj] 的 值 等 于 
IDEAL [Bj] 的 值 。 我 们 没有 在 这 里 讨论 逆向 的 问题 。 在 逆向 的 问题 中 ， 
我 们 把 IDEAL [BJ] 定义 为 OUT [BJ] 的 理想 值 。 


[11] 和 往常 一 样 ，+ 表 示 一 个 一 般 性 的 运算 符号 ， 而 不 是 只 表示 加 
法 。 

[121 请 注意 ， 对 表达 式 值 的 使 用 和 对 变量 值 的 使 用 不 同 ， 它 实际 上 
是 说 该 表达 式 出 现在 某 个 语句 的 右 部 。 一 一 译 者 注 


[131D. E. Knuth, “An empirical study of FORTRAN 
programs, ”, Software: Practice and Experience 1: 2 (1971) ， 
pp. 105-133. 


[14] 严格 地 讲 ， 我 们 说 的 是 fR。，, IN[ B,]， 但 是 对 类 似 于 Rs 这 样 的 
单 基本 块 区 域 ， 如 果 我 们 在 这 个 上 下 文 环境 下 使 用 基本 块 名 字 而 不 是 区 
域名 字 的 话 ， 文 字 表述 通常 会 更 清楚 。 


第 10 章 ”指令 级 并 行 性 


每 一 个 现代 高 性 能 处 理 需 都 能 够 在 一 个 时 钟 周期 内 执行 多 条 指令 。 
在 一 个 具有 指令 级 并 行 机 制 的 处 理 器 上 一 个 程序 能 够 以 多 快 的 速度 运 
因 系 : 


1) 该 程序 中 潜在 的 并 行 性 。 

2) 该 处 理 磺 上 可 用 的 并 行 性 。 

3) 从 原来 的 顺序 程序 中 抽取 并 行 性 的 能 

4) 在 给 定 的 指令 调度 约束 之 下 找到 最 好 的 并 行 调度 方案 的 能 


如 末 一 个 程序 中 的 所 有 运算 之 间 都 是 高 度 依赖 的 ， 那 么 再 多 的 硬件 
或 及 用 并 行 化 技术 都 无 法 使 这 个 程序 快速 并 行 执行 。 关 于 并 行 化 的 限制 
方面 已 经 有 了 很 多 研究 。 典 型 的 非 数 值 应 用 有 很 多 固有 的 依赖 性 。 比 
如 ， 这 些 程序 具有 很 多 依赖 于 数据 的 分 支 ， 使 得 哪怕 预测 一 下 下 面 将 执 
行 哪 条 指令 都 变 得 很 困难 ， 更 不 要 说 去 决定 哪些 运算 可 以 并 行 执 行 了 。 
因此 ， 这 个 领域 中 的 研究 工作 集中 在 放松 调度 约束 的 技术 ， 包 括 引 入 新 
的 体系 结构 特性 ， 而 不 是 调度 技术 本 喘 。 


数值 应 用 (比如 科学 计算 和 信号 处 理 ) 往往 具有 更 好 的 并 行 性 。 这 
些 应 用 处 理 大 型 的 聚合 数据 结构 。 在 该 结构 的 不 同 元 素 上 的 运算 通常 是 
相互 独立 的 ， 可 以 并 行 地 执行 。 在 高 性 能 通用 机 需 和 数字 信和 号 处 理 器 中 
都 提供 了 附加 的 硬件 资源 来 利用 这 些 并 行 性 。 这 些 程序 通常 具有 简单 的 
控制 结构 和 规则 的 数据 访问 模式 。 已 经 有 一 些 静 态 技 术 可 以 用 来 从 这 些 
程序 中 抽取 出 可 用 的 并 行 性 。 这 类 应 用 的 代码 调度 很 有 意思 也 很 重要 ， 
因为 它们 允许 大 量 的 独立 运算 被 映射 到 大 量 的 资源 上 运行 。 


并 行 性 抽取 和 并 行 执行 的 调度 可 以 通过 软件 静态 完成 ， 也 可 以 通过 
便 件 动态 进行 。 实 际 上 上， 即使 是 上 共有 硬件 调度 机 制 的 机 器 也 可 以 辅 以 软 
件 调度 。 本 章 将 首先 解释 使 用 指令 级 并 行 性 的 一 些 基本 问题 。 不 管 是 硬 
件 管理 的 并 行 性 还 是 软件 管理 的 并 行 性 ， 这 些 问题 都 是 一 样 的 。 然 后 我 
们 给 出 并 行 性 抽取 所 需 的 基本 数据 依赖 性 分 析 。 这 些 分 析 也 可 用 于 指令 





























的 其 他 优化 。 我 们 将 在 第 11 章 中 看 到 这 些 分 析 技 术 的 其 他 
必用 。 


最 后 ， 我 们 给 出 代码 调度 中 的 基本 思想 。 我 们 将 描述 一 个 用 于 基本 
块 调度 的 技术 ， 并 给 出 一 个 方法 来 处 理 通用 程序 中 高 度数 据 依赖 的 控制 
流 ， 最 后 给 出 一 个 称 为 软件 流水 线 化 * 的 技术 。 软 件 流水 线 化 技术 主要 
用 于 数值 计算 程序 的 调度 。 





10.1 处 理 器 体系 结构 


当 我 们 考虑 指令 级 并 行 性 的 时 候 ， 通 常设 想 的 是 一 个 在 每 个 时 钟 周 
期 内 发 出 多 条 运算 指令 的 处 理 器 。 实 际 上 ， 如 果 使 用 流水 线 
(pipelining〉 的 概念 ， 即 使 一 个 机 器 每 个 时 钟 周期 出 发 送 一 条 运算 指 
令 ， 我 们 仍然 能 够 得 到 指令 级 并 行 性 。 下 面 ， 我 们 将 首先 解释 流水 线 的 
概念 ， 然 后 再 讨论 多 指令 发 送 。 





10.1.1 ”指令 流水 线 和 分 支 延 时 


在 实践 中 ， 不 管 是 高 性 能 超级 计算 机 还 是 普通 的 机 器 ， 每 个 处 理 器 
都 使 用 指令 流水 线 (instruction pipeline) 。 使 用 指令 流水 线 ， 每 个 时 钟 
周期 都 可 以 取得 一 个 新 指令 ， 而 此 时 前 面 的 指令 还 在 流水 线 中 执行 。 图 
10-1 显 示 的 是 一 个 简单 的 5 阶段 指令 流水 线 : 它 首 先 获 取 指 令 (IF) ， 
对 该 指令 解码 (ID) ， 执 行 运算 (EX) ， 访问 内 存 (MEM) ， 然 后 回 
写 结果 (WB) 。 该 图 显示 了 指令 i、i+1、i+2、i+3 和 i+4 是 如 何在 同一 
时 刻 并 行 运行 的 。 图 中 的 每 一 行 对 应 于 一 个 时 钟 周 期 ， 而 每 一 列 指 明了 
各 条 指令 在 各 时 钟 周期 中 所 在 的 阶段 。 
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图 10-1 在 一 个 5 阶段 指令 流水 线 中 的 五 个 连续 指令 


如 果 在 后 续 指 令 需 要 某 条 指令 的 结果 时 此 结果 已 经 可 用 ， 那 么 处 理 
名 就 可 以 在 每 个 时 钟 周 期 内 发 出 一 条 指令 。 分 文 指 令 特别 容易 出 现 问 
题 ， 因 为 只 有 在 它们 被 获取 、 解 码 并 执行 之 后 ， 处 理 融 才能 够 知道 下 面 
该 执行 哪 条 指令 。 很 多 处 理 咒 假设 分 文 不 会 跳 转 ， 投 机 性 地 选取 下 一 条 
间 令 并 解码 。 但 是 当 这 个 分 文 真 的 需要 跳 转 的 时 候 ， 指 令 流水 线 被 清空 
并 获取 分 文 跳 转 的 目标 指令 。 因 此 ， 分 文 跳 转 引 入 了 为 获取 分 文 跳 转 目 
标 而 引起 的 延 时 ， 并 使 得 指令 流水 线 “ 打 电 "”。 移 进 的 处 理 器 使 用 硬件 根 
据 分 支 运 行 的 历史 来 预测 它们 的 结果 ， 并 从 预测 的 目标 位 置 预 取 指 令 。 
但 是 如 果 分 文 预测 错误 ， 依 然 会 出 现 分 文 延 时 。 











10.1.2 流水线 执行 


有 些 指令 的 执行 需要 儿 个 时 钟 周期 。 一 个 第 见 的 例子 是 内 存 加 载运 
算 。 即 使 某 次 内 存 访 问 的 目标 数据 已 经 在 高 速 缓存 中 ， 高 速 缓存 仍然 需 
要 多 个 时 钟 周期 才 会 返回 数据 。 如 果 一 条 指令 的 后 继 指 令 在 不 需要 该 指 
令 的 运算 结果 时 可 以 立刻 往 下 执行 ， 我 们 束 说 该 指令 的 执行 被 流水 线 化 
(pipelined) 了 。 因 此 ， 即 使 一 个 处 理 需 在 每 个 时 钟 周期 内 只 能 及 送 一 
条 指令 ， 但 仍然 可 能 在 同一 时 刻 有 多 条 指令 在 它们 各 目的 阶段 上 执行 。 
如 果 最 深 的 执行 流水 线 有 n 个 阶段 ， 那 么 在 同一 时 刻 最 多 可 允许 n 条 指令 











处 于 执行 状态 。 请 注意 ， 不 是 所 有 的 指令 都 是 完全 流水 线 化 的 。 虽 然 浮 
点 数 加 法 和 乘法 通 癌 都 被 完全 地 流水 线 化 了 ， 但 更 加 复杂 且 很 少 执行 的 
浮 点 数 除法 却 没有 做 到 这 一 点 。 


大 多 数 通用 处 理 器 动态 地 检测 连续 指令 之 间 的 依赖 关系 ， 并 在 指令 
的 运算 分 量 尚 不 可 用 时 目 动 阻塞 这 些 指令 的 执行 。 有 些 处 理 器 ， 特 别 是 
手持 设备 中 的 巷 入 陈 公 片 ， 则 把 依赖 关系 检查 工作 留 给 软件 来 做 ， 以 便 
简化 便 件 并 降低 能 耗 。 在 这 种 情况 下 ， 相 应 的 编 详 侨 负 责 在 必要 时 问 代 
码 中 插入 “no-op” 指 令 〔 即 不 做 任何 处 理 的 指令 一 一 译 者 注 ) ， 以 保证 
需要 茶 条 指令 的 计算 结果 时 该 结果 一 定 可 用 。 











10.1.3 ”多 指令 发 送 


通过 在 每 个 时 钟 周 期 发 送 多 条 指令 ， 处 理 器 可 以 在 同一 时 刻 运 行 更 
多 指令 。 可 同时 执行 的 指令 数目 是 指令 发 送 宽度 和 指令 执行 流水 线 中 平 
均 阶 段 数目 的 乘积 。 


和 流水 线 处 理 类 似 ， 多 发 送 机 器 的 并 行 性 既 可 以 通过 便 件 管理 ， 也 
可 以 通过 软件 管理 。 依 靠 软件 管理 其 并 发 性 的 机 器 称 为 VLIW 〈 非 常 长 
指令 字 ，Very-Long-Instruction-Word) 机 器 ， 而 那些 使 用 硬件 管理 其 并 
发 性 的 机 器 称 为 超标 量 (superscalar) 机 器 。 顾 名 思 义 ，VLIW 机 器 的 指 
令 字 宽度 比 一 般 指令 字 更 长 。 每 条 这 样 的 指令 字 是 要 在 同一 时 钟 周期 内 
发 送 的 多 条 指令 的 编码 。 编 译 占 决定 哪些 运算 将 被 并 行 地 发 送 ， 并 把 这 
些 信 息 在 机 器 代码 中 明确 地 编码 。 男 一 方面 ， 超 标量 机 占有 一 个 普通 的 
指令 集 ， 并 且 具 有 普通 的 顺序 执行 语义 。 超 标量 机 器 自动 检测 指令 之 间 
的 依赖 关系 ， 并 在 这 些 指令 的 运算 分 量变 得 可 用 时 发 送 它们 。 有 些 处 理 
器 同时 包含 VLIW 和 超标 量 两 种 功能 。 


简单 的 硬件 指令 调度 器 按照 指令 获取 的 顺序 执行 指令 。 如 果 指令 调 
度 器 碰 到 一 个 依赖 前 面 指令 的 指令 ， 那 么 该 指令 及 其 全 部 后 继 指令 必须 
等 待 依赖 关系 的 解除 〈 即 等 待 它 所 需 的 其 他 指令 的 计算 结果 变 得 可 
用 ) 。 如 果 有 一 个 静态 指令 调度 器 能 够 把 相互 独立 的 运算 按 执行 顺序 放 
在 一 起 ， 那 么 这 样 的 机 器 显然 能 够 从 这 个 静态 指令 调度 器 获 益 。 


更 加 复杂 的 指令 调度 圳 可 以 “其 三 倒 四 ?地 执行 指令 。 指 令 可 以 被 单 
独 地 阻 上 天， 直到 被 阻 暑 指令 所 需 的 所 有 值 都 已 经 生成 后 再 继续 执行 。 即 











使 是 这 些 指令 调度 喜 也 可 以 从 静态 调度 获 蔓 ， 因 为 硬件 指令 调度 器 只 有 
有 限 的 空间 来 缓冲 那些 必须 被 阻塞 的 指令 。 静 态 调度 可 以 把 相互 独立 的 
指令 放 得 比较 靠近 ， 以 便 更 好 地 利用 硬件 设施 。 更 重要 的 是 ， 不 管 动态 
指令 调度 器 有 多 复杂 ， 它 都 不 能 执行 它 还 没有 获取 的 指令 。 当 人 处理 絮 不 
得 不 执行 一 个 未 预见 的 分 支 时 ， 它 只 能 在 新 近 获 取 的 指令 中 寻找 并 行 
性 。 编 译 器 可 以 设法 保证 这 些 新 获取 的 指令 可 以 并 行 执行 ， 以 此 来 增强 
动态 指令 调度 器 的 性 能 。 




















10.2 ”代码 调度 约束 


代码 调度 是 程序 优化 的 一 种 形式 ， 它 应 用 于 由 代码 生成 器 生成 的 机 
器 代码 。 代 码 调度 要 遵守 下 面 三 种 约束 : 


1) 控制 依赖 约束 。 所 有 在 原 程 序 中 执行 的 运算 都 必须 在 优化 后 的 
程序 中 执行 。 


2) 数据 依赖 约束 。 优 化 后 的 程序 中 的 运算 必须 和 原 程序 中 的 相应 
运算 生成 相同 的 结果 。 


3) 资源 约束 。 调 度 不 能 够 超额 使 用 机 器 上 的 资源 。 


这 些 调度 约束 保证 了 优化 后 的 程序 和 原 程序 生成 同样 的 结果 。 但 
是 ， 因 为 代码 调度 改变 了 运算 执行 的 顺序 ， 所 以 优化 后 的 程序 执行 时 某 
一 点 上 的 内 存 状 态 可 能 和 顺序 执行 时 任 一 点 上 的 内 存 状 态 都 不 匹配 。 如 
果 一 个 程序 的 执行 因 异 常 或 用 户 设 定 的 断 点 而 中 断 时 ， 就 会 产生 问题 。 
因此 经 过 优化 的 程序 比较 难以 调试 。 请 注意 ， 这 个 问题 不 是 代码 调度 专 
有 的 ， 所 有 的 优化 技术 都 会 出 现 这 个 问题 ， 包 括 部 分 元 余 消除 〈 见 9.5 
节 ) 和 寄存 器 分 配 〈 见 8.8 节 ) 。 














10.2.1 数据 依赖 





显然 ， 如 果 两 个 运算 不 接触 同一 个 变量 ， 那 么 改变 这 两 个 运算 的 执 
行 顺序 肯定 不 会 影响 它们 的 执行 结果 。 实 际 上 ， 即 使 这 两 个 运算 读 取 同 
一 个 变量 的 值 ， 我 们 仍然 可 以 交换 它们 的 执行 次 序 。 只 有 当 一 个 运算 问 
一 个 变量 写 值 ， 而 男 一 个 运算 对 这 个 变量 执行 读 或 写 运 算 时 ， 改 变 它们 
的 执行 次 序 才 会 改变 它们 的 结果 。 这 样 的 一 对 操作 之 间 被 认为 存在 数据 
依赖 (data dependence) 关系 ， 并 且 它 们 的 相对 执行 顺序 必须 保持 不 
变 。 有 三 种 类 型 的 数据 依赖 关系 : 


1) 真 依赖 : 写 之 后 再 恋 。 如 果 一 个 写 运算 后 面 跟随 一 个 对 同一 个 
位 置 的 读 运算 ， 那 么 这 个 读 操 作 就 依赖 于 被 写 入 的 值 ， 这 种 依赖 关系 被 





认为 是 一 个 真 依赖 天 系 。 


2) 有 反 依 赖 : 读 之 后 再 号 。 如 果 一 个 读 运 算 之 后 跟随 一 个 对 同一 个 
位 置 的 写 运 算 ， 我 们 说 存在 一 个 从 读 运 算 到 写 运算 的 反 依赖 关系 。 写 运 
算 本 质 上 不 依赖 于 读 运 算 ， 但 是 如 果 写 运算 在 读 运算 之 前 发 生 ， 那 么 这 
个 读 运 算 将 读 取 到 错误 的 值 。 反 依赖 关系 是 强制 式 编程 的 一 个 副产品 。 
这 种 语言 中 同一 个 内 存 位 置 可 以 在 不 同时 刻 存 放 不 同 的 值 。 这 不 是 一 




















3) 输出 依赖 : 写 之 后 再 写 。 对 同一 个 位 置 的 两 个 写 运算 之 间 有 和 输 
出 依赖 天 系 。 如 果 违 反 了 这 个 关系 ， 那 么 在 这 两 个 运算 都 完成 之 后 ， 被 
写 内 存 位 置 上 存放 的 是 错误 的 值 。 


反 依赖 关系 和 输出 依赖 关系 被 称 为 存储 相关 的 依赖 (storage-related 
dependence) 。 这 些 都 不 是 “ 真 ” 的 依赖 关系 ， 可 以 通过 使 用 不 同 的 内 存 
位 置 存放 不 同 的 值 来 消除 这 些 依 赖 天 系 。 请 注意 ， 数 据 依赖 关系 对 于 内 
存 访问 和 寄存 器 访问 同样 有 效 。 





10.2.2 “寻找 内 存 访问 之 间 的 依赖 关系 








要 检查 两 个 内 存 访问 之 间 是 否 有 数据 依赖 关系 ， 我 们 只 需要 指出 它 
们 是 否 可 能 指 问 同一 个 内 存 位 置 ， 而 不 需要 知道 到 底 访问 哪个 位 置 。 比 
如 ， 虽 然 我 们 可 能 不 知道 指针 p 到 底 指 向 哪里 ， 但 仍然 可 以 指出 两 个 访 
问 *p 和 ”Cp+4) (原文 为 (*p) +4 译 者 注 ) 不 可 能 指向 同一 个 位 置 。 
总 的 来 说 ， 数 据 依 赖 关 系 是 不 可 能 在 编译 时 刻 完全 确定 的 。 除 非 能 够 证 
de 否则 编译 器 必须 假设 它们 可 能 会 指 癌 同一 
让 位 赴 。 


tA 给 定 下 面 的 代码 序列 
人 a 


2) *p 
3) x 
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除非 编译 露 知道 p 不 可 能 指 癌 a， 否 则 它 必 须 决定 这 三 个 运算 需要 顺 
序 执行 。 从 语句 〈1) 到 语句 〈2) 有 一 个 输出 依赖 关系 ， 从 语句 
(1) 、 2) 到 语句 〈3) 有 两 个 真 依赖 关系 。 


数据 依赖 分 析 对 于 程序 所 使 用 的 程序 设计 语言 是 很 敏感 的 。 对 于 非 
类 型 安全 的 语言 ， 比 如 C 和 C++， 一 个 指针 可 以 被 强制 转换 ， 指 癌 任何 
类 型 的 数据 对 象 ， 因 此 要 证 明 任 意 一 对 基于 指针 的 内 存 访问 之 间 的 独立 
性 需要 复杂 的 分 析 过 程 。 即 使 对 于 局 部 变量 和 全 局 标量 变量 ， 除 非 可 以 
证 明 它们 的 地 址 没有 被 程序 中 的 指令 存放 到 任何 地 方 ， 它 们 也 有 可 能 遂 
过 指针 被 间接 访问 。 在 像 Java 这 样 的 类 型 安全 的 语言 中 ， 不 同类 型 的 对 
象 一 定 是 相互 独立 的 。 类 似 地 ， 栈 中 的 局 部 简单 变量 不 可 能 通过 其 他 的 
变量 名 字 进 行 访问 。 

发 现 正 确 的 数据 依赖 天 系 需 要 多 种 不 同类 型 的 分 析 。 我 们 将 关注 那 
些 主要 的 问题 。 如 果 编 译 事 想 要 检测 一 个 程序 中 的 所 有 数据 依赖 关系 ， 
它 必 须 首先 解决 这 些 问题 ， 并 说 明 如 何 使 用 这 些 信息 进行 代码 调度 。 后 
面 的 章节 将 说 明 这 些 分 析 是 如 何 完成 的 。 


数组 的 数据 依赖 分 析 


数组 的 数据 依赖 分 析 问 题 主要 是 区 分 数组 元 素 访问 中 的 下 标 值 。 比 
如 ， 下 面 的 循环 


























for (i = 0; i < n; i++) 
A[2*i] = A[2*i+1]; 


把 数组 A 的 奇数 号 元 素 找 贝 到 紧 靠 在 该 元 素 之 前 的 侦 数 号 元 素 中 去 。 因 
为 这 个 循环 中 所 有 的 读 / 写 运算 的 位 置 互 不 相同 ， 这 些 访问 之 间 没 有 任 
何 依赖 和 关系， 所 以 循环 中 所 有 的 迭代 都 可 以 并 行 执 行 。 数 组 的 数据 依赖 
分 析 ， 简 称 为 数据 依赖 分 析 〈data-dependence analysis) ， 对 于 数值 应 用 
的 优化 来 说 是 非常 重要 的 。 这 个 主题 将 在 11.6 节 中 详细 讨论 。 

虽 针 别名 分 析 

如 末 两 个 指针 指 回 同一 个 对 象 ， 我 们 融 说 它们 互 为 别名 
Caliased) 。 指 针 别 名 的 分 析 很 困难 ， 原 因 是 一 个 程序 中 具有 很 多 可 能 


互 为 别名 的 指针 。 随 着 时 间 的 发 展 ， 它 们 中 的 每 个 都 可 能 指向 无 限 多 个 
动态 对 象 。 为 了 得 到 精确 的 信息 ， 进 行 指针 别名 分 析 时 必须 跨越 程序 中 




















的 各 个 函数 。 这 个 主题 从 12.4 节 开始 讨论 。 
过 程 间 分 析 


对 于 通过 引用 传递 参数 的 语言 ， 需 要 使 用 过 程 间 分 析 来 确定 是 否 世 
一 个 变量 被 当 作 两 个 或 多 个 不 同 的 参数 进行 传递 。 这 类 别名 看 起 来 可 能 
会 在 不 同 的 参数 之 间 建 立 依赖 关系 。 类 似 地 ， 全 局 变量 可 能 被 用 作 参 
数 ， 由 此 会 建立 参数 访问 和 全 局 变量 访问 之 间 的 依赖 。 在 确定 这 些 别 名 
时 ， 第 12 章 中 讨论 的 过 程 间 分 析 技 术 是 必需 的 。 











10.2.3 寄存 医 使 用 和 并 行 性 之 间 的 折衷 


在 这 一 章 中 ， 我 们 将 假设 源 程序 的 机 器 无 关中 间 表 示 形 式 使 用 了 无 
限 多 个 伪 寄 存 器 (pseudoregister) 。 这 些 伪 寄存 器 代表 了 可 以 分 配 到 寄 
存 器 的 变量 。 这 些 变量 包括 源 程 序 中 不 能 通过 任何 其 他 名 字 访 问 的 标 
量 ， 也 包括 由 编译 器 生成 的 用 于 存放 表达 式 的 部 分 结果 的 临时 变量 。 和 
内 存 位 置 不 同 ， 寄 存 器 的 命名 是 唯一 的 。 因 此 可 以 很 容易 地 为 寄存 器 访 
问 生 成 精确 的 数据 依赖 约束 。 


在 中 间 表 示 形 式 中 使 用 的 无 限 多 个 伪 寄 存 器 最 终 必 须 被 映射 到 在 目 
标 机 器 上 可 用 的 少量 物理 寄存 器 。 把 几 个 伪 寄 存 咒 映射 为 同一 个 物理 寄 
存 器 有 一 个 副作用 。 这 种 映射 会 生成 人 为 的 存储 依赖 ， 这 限制 了 指令 级 
的 并 行 性 。 反 过 来 ， 并 行 执行 指令 产生 了 更 多 的 存储 需求 ， 以 便 存放 同 
时 计算 出 来 的 值 。 因 此 ， 尽 量 降 低 寄 存 器 使 用 数量 的 目标 和 最 大 化 指令 
级 并 行 性 的 目标 和 直接 冲突 。 下 面 的 例 10.2 和 例 10.3 说 明了 存储 和 并 行 性 
之 间 的 典型 折衷 处 理 。 

















人 硬件 寄存 器 重 命 名 


绰 令 级 并 行 性 首先 是 作为 一 种 加 快 普通 的 顺序 机 需 代 码 执行 速度 
的 手段 在 计算 机 体系 结构 中 使 用 的 。 当 时 的 编译 器 还 不 知道 机 器 上 的 
旨 令 级 并 行 性 ， 其 目标 是 优化 寄存 右 的 使 用 。 它 们 仔细 地 重新 排列 指 
令 以 使 所 用 的 寄存 器 数目 最 少 ， 但 同时 也 使 可 用 的 并 行 性 的 数量 减 到 
最 少 。 例 10.3 说 明 的 是 在 表达 式 树 的 计算 过 程 中 最 小 化 寄存 器 使 用 的 


同时 也 限制 了 它 的 并 行 性 。 


在 顺序 代码 中 的 并 行 性 太 少 了 ， 计 算 机 体系 结构 设计 师 不 得 不 发 
明了 硬件 寄存 器 重 命名 (hardware register renaming) 的 概念 ， 试 图 通 
过 寄存 器 重 命名 来 撤销 寄存 器 优化 所 春 来 的 影响 。 硬 件 寄存 器 重 命名 
在 程序 运行 时 动态 地 改变 寄存 器 的 指派 。 它 对 机 器 代码 进行 解释 ， 把 
本 来 存放 在 同一 个 寄存 器 中 的 值 存放 在 不 同 的 内 部 寄存 器 中 ， 并 把 对 
这 些 值 的 使 用 修正 到 相应 的 内 部 寄存 器 。 


因为 人 为 的 寄存 器 依赖 约束 首先 是 由 编译 器 引入 的 ， 如 果 使 用 了 
一 个 认识 到 指令 级 并 行 性 的 寄存 器 分 配 算法 ， 这 些 约束 就 可 以 被 消 
除 。 当 一 个 机 器 的 指令 集 只 能 引用 少量 寄存 器 时 ， 便 件 寄存 嚣 重 命 名 
机 制 仍然 是 有 用 的 。 这 种 能 力 使 得 我 们 可 以 给 出 这 个 指令 集体 系 结构 
的 更 好 的 实现 ， 把 代码 中 的 由 指令 集体 系 结构 规定 的 少量 寄存 器 动态 
地 映射 到 多 得 多 的 内 部 寄存 右上 。 

















时 时 下 面 的 代码 使 用 伪 寄 存 回 ti 和 t2 把 位 于 位 置 a 和 c 上 的 变量 的 值 
分 别 复制 到 在 位 置 b; 和 d 上 的 变量 中 。 


LD ti, a // ti = a 
ST Bb, 1 //b = tl 
LD t2, c // t2= Cc 
ST ds t2 //d = +t2 


如 果 已 知 所 有 被 访问 的 内 存 位 置 都 互 不 相同 ， 那 么 上 面 的 复制 过 程 可 以 
并 行进 行 。 但 是 ， 如 果 为 了 尽量 降低 所 用 寄存 占 的 数量 而 把 tt 和 t2 赋 给 
同一 个 寄存 器 ， 那 么 复制 过 程 束 只 能 顺序 进行 了 。 


古 导 传统 的 寄存 器 分 配 技术 的 目标 是 尽 可 能 减少 一 个 计算 过 程 所 需 
要 的 霄 存 器 数目 。 考 虑 表达 式 





(a+bl)+cr+(d+e) 


图 10-2 显 示 了 它 的 语法 树 。 如 图 10-3 的 机 器 代码 所 示 ， 可 以 使 用 3 个 寄存 
器 来 完成 这 个 表达 式 的 计算 。 





aa 
本 本 
A 


图 10-2 例 10.3 中 的 表达 式 树 


下 区 
LD r2, b 
ADD ri, ri, r2 
ED: 革 必 。， 翅 


ADD ri, ri, r2 
LD r2, d 
LD r3, e 
ADD r2, YT2, r3 
ADD ri, rli, r2 





图 10-3 图 10-2 中 表达 式 的 机 器 代码 


但 是 ， 对 寄存 右 的 复 用 使 得 计算 串 行 化 。 唯 一 可 以 并 行 执行 的 运算 
古 把 位 置 a 和 b 的 值 加 载 到 寄存 器， 以 及 把 位 置 d 和 e 的 值 加 载 到 寄存 器 。 
因此 并 行 地 完成 这 个 计算 共 需 要 7 步 。 


假如 我 们 使 用 不 同 的 寄存 器 来 存放 各 个 部 分 和 ， 这 个 表达 式 可 以 在 
4 步 内 完成 求 值 。 这 个 步 数 正好 是 图 10-2 中 的 表达 式 树 的 高 度 。 图 10-4 给 
出 了 这 样 的 并 行 计 算 过 程 。 





图 10-4 图 10-2 中 表达 式 的 并 行 求 值 过 程 


10.2.4 寄存 右 分 配 阶 段 和 代码 调度 阶段 之 间 的 顺 
序 


如 琳 在 代码 调度 之 前 进行 寄存 嚣 分配， 那么 得 到 的 代码 往往 会 有 很 
多 存储 依赖 ， 而 这 会 限制 代码 调度 。 男 一 方面 ， 如 果 在 寄存 器 分 配 之 前 
先进 行 代码 调度 ， 那 么 得 到 的 代码 调度 方案 可 能 需要 太 多 的 寄存 器 ， 以 
至 于 寄存 器 溢出 (spilling)〉 会 抵消 指令 级 并 行 性 所 带 来 的 好 处 。 所 训 寄 
存 此 洲 出 是 指 把 一 个 寄存 右 中 的 内 容 保 存 到 一 个 内 存 位 置 上 ， 使 得 该 寄 
存 器 可 以 用 于 其 他 目的 。 一 个 编译 器 应 该 首先 分 配 寄存 器 然后 再 进行 代 
码 调度 吗 ? 还 是 应 该 按照 相反 顺序 处 理 ? 或 者 我 们 同时 解决 这 两 个 问 


题 ? 








为 了 回答 上 面 的 问题 ， 我 们 必须 考虑 被 编译 程序 的 特性 。 很 多 非 数 
值 应 用 没有 那么 多 可 用 的 并 行 性 。 把 少量 的 寄存 器 专门 用 于 保存 表达 式 
的 临时 结果 就 足够 了 。 我 们 可 以 首先 应 用 8.8.4 节 中 所 述 的 着 色 算 法 ， 为 
人 
寄存 器 。 


这 个 方法 对 于 数值 应 用 的 效果 束 不 太 好 数值 应 用 中 有 很 多 大 型 表 
达 式 ) 。 我 们 可 以 使 用 层次 化 的 方法 来 处 理 。 代 码 优化 首先 从 最 内 层 循 
环 开始 ， 按 照 从 内 向 外 的 顺序 进行 。 首 先进 行 指令 调度 ， 此 时 假设 可 以 
给 每 个 伪 寄 存 器 分 配 一 个 独占 的 物理 寄存 器 。 然 后 进行 寄存 器 分 配 ， 并 
在 需要 的 地 方 加 入 人 处理 寄存 占 洲 出 的 代码 ， 然 后 再 次 对 代码 进行 调度 。 
然后 我 们 对 较 外 层 的 循环 重复 这 个 过 程 。 当 把 同一 个 外 层 循 环 中 的 多 个 
内 层 循环 一 起 考虑 时 ， 同 一 个 变量 可 能 在 不 同 内 层 循环 中 被 分 配 到 不 同 
的 寄存 器 中 。 我 们 可 以 改变 寄存 器 的 分 配方 案 ， 以 避免 把 值 从 一 个 寄存 
器 复制 到 忆 一 个 寄存 器 。 在 10.5 节 中 ， 我 们 将 在 特定 调度 算法 的 上 下 文 
环境 下 进一步 讨论 寄存 器 分 配 和 指令 调度 之 间 的 关系 。 























10.2.5 控制 依赖 





对 一 个 基本 块 内 的 运算 进行 调度 是 相对 容易 的 。 因 为 一 旦 控制 流 到 





达 基 本 块 的 开头 ， 所 有 的 指令 都 必然 会 执行 。 只 要 满足 所 有 的 数据 依 
赖 ， 一 个 基本 块 内 的 指令 可 以 进行 任意 重新 排序 。 遗 憾 的 是 ， 基 本 块 通 
常 都 很 小 ， 对 非 数值 程序 而 言 尤 其 如 此 。 一 个 基本 块 平 均 只 有 大 约 五 条 
旨 令 。 为 外， 同一 个 基本 块 内 的 运算 经 常 是 紧密 相关 的 ， 因 此 很 少 有 并 
行 性 。 可 见 ， 利 用 基本 块 之 间 的 并 友 性 是 至 关 重 要 的 。 


一 个 优化 后 的 程序 必须 执行 原 程序 中 的 所 有 运算 。 它 可 以 比 原 程序 
执行 更 多 的 指令 ， 前 提 是 额外 增加 的 指令 没有 改变 程序 所 做 的 计算 。 为 
什么 执行 额外 的 指令 能 够 加 快 一 个 程序 的 执行 速度 ”如果 我 们 知道 一 条 
指令 可 能 会 执行 ， 而 且 有 空间 的 资源 来 “免费 ”执行 这 个 指令 ， 我 们 就 可 
以 先 投 机 性 地 (speculatively) 执行 这 条 指令 。 如 果 这 个 投机 是 正确 
的 ， 那 么 程序 的 执行 速度 就 会 变 快 。 


如 果 指 令 记 ,的 结果 决定 了 指令 i 是 否 执 行 ， 那 么 就 说 指令 ij 是 控制 依 
赖 〈control-dependent) 于 指令 ii, 的。 控制 依赖 的 概念 和 块 结构 程序 中 的 
嵌 套 层次 相对 应 。 明 确 地 说 ， 在 if-else 语 句 











if (c) si; else s2; 

中 ，s1 和 s2 是 控制 依赖 于 c 的 。 类 似 地 ， 在 while 语 名 
while (c) s; 

中 ， 循 环 体 s 控 制 依赖 于 c。 

在 代码 片段 


if (a > t) 
b = a*a; 
d = atc; 


中 ， 语 句 bp=a*a 和 d=atc 和 此 片断 中 的 其 他 部 分 都 没有 数据 依赖 关系 。 语 
句 b=a*a 依 赖 于 比较 表达 式 a>t。 但 是 ， 语 句 d=a+tc 不 依赖 于 这 个 比较 表达 
式 ， 它 可 以 在 任何 时 刻 运行 。 假 设 乘 法 运算 a*a 不 会 引起 任何 副作用 ， 
ns 以 被 投机 地 执行 ， 前 提 是 只 有 在 发 现 a 大 于 t 之 后 才 把 结果 写 
入 b 中 。 











10.2.6 ”对 投机 执行 的 支持 





内 存 加 载 指令 是 能 够 从 投机 执行 中 获得 很 大 好 处 的 指令 类 型 。 当 
然 ， 内 存 加 载 是 很 常见 的 。 它 们 有 比较 长 的 执行 延 时 ， 加 载 指令 中 使 用 
的 地 址 通常 可 以 预先 知道 ， 且 结果 可 以 存放 到 一 个 新 的 临时 变量 中 而 不 
会 破坏 任何 其 他 变量 的 值 。 遗 憾 的 是 ， 如 果 它 们 的 地 址 是 非法 的 ， 内 存 
加 载 可 能 会 引发 异常 ， 因 此 投机 性 地 访问 非法 地 址 可 能 会 使 一 个 正确 的 
程序 意外 地 停止 执行 。 另 外 ， 预 测 错误 的 内 存 加 载 可 能 引起 额外 的 高 速 
绥 存 脱 靶 和 页 面 错 误 ， 这 些 问题 的 代价 都 非常 大 。 


在 代码 片段 


if (p != null) 
q = *Pp; 


EA 
行 。 





很 多 高 性 能 处 理 器 都 提供 了 特殊 的 功能 来 文 持 投机 性 内 存 访 问 。 下 
面 我 们 给 出 其 中 一 些 最 重要 的 特殊 功能 。 


预 取 指令 


人 们 发 明了 预 取 (prefetch) 指令 ， 以 便 在 数据 被 使 用 之 前 将 其 从 
内 存 移动 到 高 速 缓 存 。 一 个 预 取 指令 同 处 理 器 表明 该 程序 可 能 很 快 就 要 
使 用 特定 内 存 字 。 如 果 指 定 的 内 存 位 置 不 可 用 ， 或 者 访问 该 位 置 会 引起 
页 面 错误 ， 那 么 处 理 器 可 以 直接 忽略 这 个 指令 。 否 则 ， 如 果 该 数据 不 在 
高 速 缓存 中 ， 处 理 融 将 把 该 数据 从 内 存 移动 到 高 速 缓 仓 。 


毒药 位 


另 一 个 体系 结构 特征 被 称 为 毒药 位 〈poison bit) 。 人 们 发 明 毒 药 位 
以 便 投机 性 地 把 数据 从 内 存 加 载 到 寄存 器 文件 。 该 机 右上 的 每 个 寄存 器 
都 增加 了 一 个 毒药 位 。 如 果 访 问 了 非法 内 存 ， 或 者 被 访问 的 页 面 不 在 内 
存 中 ， 处 理 器 并 不 立刻 引发 异常 ， 而 是 仅仅 设置 目标 寄存 器 的 毒药 位 。 
只 有 当 其 毒药 位 被 置 位 的 寄存 器 中 的 内 容 被 使 用 时 才 会 引发 一 个 异常。 














市 断言 的 执行 


因为 分 文 运算 的 开销 很 大 ， 而 预测 错误 的 分 文 的 开销 更 大 《〈 见 10.1 
节 ) ， 人 们 发 明了 带 断 言 的 指令 〈predicated instruction ) 以 减少 一 个 程 
序 中 的 分 文 数量 。 一 条 珊 断 言 的 指令 和 一 条 普通 指令 类 似 ， 但 是 它 有 一 
个 额外 的 断言 运算 分 量 ， 作 为 它 的 执行 条 件 。 只 有 在 该 断言 被 满足 时 指 
令 才 会 执行 。 


例如 ， 一 个 带 条 件 的 移动 指令 cMovz R2，R3，R1 的 语义 是 只 有 当 寄 
存 器 R1 的 值 为 零 时 寄存 器 Rs 的 内 容 才 会 被 移动 到 寄存 器 R2。 假 设 a、b、 
c 和 d 分 别 分 配 到 寄存 器 Ri1、R2、R4、R5 中 ， 下 面 的 代码 





if (a == 0) 
b = c+d; 


可 以 使 用 如 下 两 条 机 器 指令 实现 ; 


ADD R3, R4, R5 
CMOVZ R2, R3, R1 


这 个 转换 把 一 系列 具有 控制 依赖 关系 的 指令 蔡 换 为 只 有 数据 依赖 关系 的 
指令 。 蔡 换 后 的 这 些 指令 可 以 和 相 邻 的 基本 块 合 并 ， 形 成 更 大 的 基本 
块 。 更 重要 的 是 ， 使 用 这 些 代 码 ， 人 处理 器 就 不 会 产生 预测 错误 ， 因 此 保 
证 了 指令 流水 线 的 平滑 运行 。 


融 断 言 的 执行 也 是 有 代价 的 。 即 使 最 后 不 需要 执行 融 断 言 的 指令 ， 
处 理 需 也 必须 获取 该 指令 并 解 可 。 静 态 调度 喜 必 须 保 留 执 行 它们 所 需要 
的 资产， 并 保证 万 有 可 能 的 数据 依赖 都 得 到 满足 。 除 非 机 器 拥有 的 资源 
大 大 多 于 个 使 用 带 断 言 指令 时 所 需要 的 资源 ， 人 否则 不 应 该 过 度 使 用 市 断 


言 指令 。 











动态 调度 机 器 


使 用 静态 调度 的 机 器 的 指令 集 明 确 地 定义 了 哪些 指令 可 以 并 行 执 
行 。 但 是 ， 回 顾 一 下 10.1.2 贡 ， 有 些 机 器 的 体系 结构 允许 到 运行 时 刻 
再 确定 哪些 指令 可 以 并 行 运行 。 使 用 动态 调度 ， 同 样 的 机 器 代码 可 以 


在 同一 系列 的 不 同 机 器 上 运行 。 这 些 机 器 实现 了 同样 的 指令 集 ， 但 是 
拥有 不 同 数量 的 并 行 执行 支持 设施 。 实 际 上 ， 机 器 代码 级 的 兼容 是 动 
态 调 度 机 器 的 一 个 主要 优 上 后 。 


用 软件 方式 在 编译 器 中 实现 的 静态 调度 器 可 以 帮助 〈 用 机 喜人 硬件 





实现 的 ) 动态 调度 器 更 好 地 利用 机 器 资源 。 在 为 一 个 动态 调度 机 器 构 
造 一 个 静态 调度 器 时 ， 我 们 几乎 可 以 照搬 为 静态 调度 机 器 设计 的 调度 
算法 ， 只 是 新 算法 不 需要 明确 地 生成 原 算法 放置 在 调度 方案 中 的 no- 


op 指令 。 这 个 问题 将 在 10.4.7 中 进一步 讨论 。 





10.2.7 一 个 基本 的 机 器 模型 


很 多 机 器 可 以 使 用 下 面 的 简单 模型 表示 。 一 个 机 器 M=<R,T> 由 下 列 
元 素 组 成 : 

1) 一 个 运算 类 型 的 集合 T。 这 些 运 算 类 型 包括 加 载 、 保 存 、 算 术 运 
算 等 。 


2) 一 个 代表 硬件 资源 的 向 量 R= [rr ] ， 其 中 m 表 示 第 i 种 资源 
的 可 用 单元 的 数目 。 典 型 资源 的 例子 包括 : 内 存 访 问 音 元、 算术 逻辑 单 
元 (ALU) 和 浮 点 功能 单元 。 

每 条 指令 具有 一 组 输入 运算 分 量 、 一 组 输出 运算 分 量 和 一 个 资源 需 
求 。 每 一 个 输入 运算 分 量 都 有 一 个 对 应 的 输入 延 时 。 这 个 延 时 表示 输入 
值 《 相 对 于 运算 开始 时 刻 ) 必须 在 什么 时 候 可 用 。 典 型 的 输入 运算 分 量 
的 延 时 是 零 ， 表 明 立 刻 就 需要 使 用 这 些 值 。 类 似 地 ， 每 个 输出 运算 分 量 
有 一 个 对 应 的 输出 延 时 。 这 个 延 时 表明 了 运算 结果 (相对 于 运算 开始 时 
刻 ) 什么 时 候 可 用 。 

每 个 t 类 型 的 机 口 运算 指令 需要 使 用 的 资源 可 以 建 模 为 一 个 二 维 的 
资源 预约 表 (resource-reservation table) ，RT,。 该 表 的 宽度 是 机 器 中 资 
源 的 种 类 数量 ， 它 的 长 度 是 该 运算 使 用 资源 的 时 间 长 度 。 表 格 中 的 条 目 
RT [i，jj」 表 示 在 t 类 型 的 运算 指令 被 发 出 i 个 时 钟 周期 后 该 运算 指令 占 
用 的 第 j 种 资源 的 数量 。 为 了 简化 表示 方法 ， 如 果 i 指 向 一 个 表格 中 不 存 














在 的 条 目 《 也 就 是 i 比 执行 该 运算 所 需 的 时 钟 数 大 ) ， 我 们 假定 RT [ji， 
j]」=0。 当 然 ， 对 于 任何 t、i 和 j，RT [i，jj 必须 小 于 或 等 于 R [j] ， 也 
就 是 该 机 器 拥有 的 第 j 种 资源 的 总 数 。 


典型 的 机 器 运算 指令 在 其 被 发 出 时 只 占用 一 个 单元 的 资源 。 有 些 运 
算 可 能 使 用 多 个 功能 单元 。 比 如 ， 一 个 相 乘 再 相 加 的 指令 可 能 在 第 一 个 
时 钟 周 期 使 用 一 个 乘法 器 ， 在 第 二 个 周期 使 用 一 个 加 法 器 。 有 些 运 算 
《比如 除法 运算 ) 可 能 需要 占用 一 个 资源 多 个 时 钟 周期 。 完 全 流水 线 化 
(fully pipelined) 的 运算 是 指 那些 在 每 个 时 钟 周期 都 可 以 发 出 一 条 指令 
的 运算 ， 虽 然 这 些 运算 的 结果 可 能 要 等 到 几 个 时 钟 周期 之 后 才 可 用 。 我 
们 不 需要 明确 地 对 一 条 流水 线 的 各 个 阶段 的 资源 建 模 ， 只 需要 用 一 个 单 
元 对 第 一 个 阶段 建 模 束 可 以 了 。 占 用 了 某 条 流水 线 的 第 一 阶段 的 运算 一 
定 能 够 在 下 一 个 时 钟 周期 进入 下 一 个 阶段 。 


10.2.8 ”10.2 节 的 练习 


练习 10.2.1: 图 10-5 中 的 多 个 赋值 语句 具有 某 些 依赖 关系 。 对 于 下 
列 的 每 个 语句 对 ， 将 它们 之 间 的 依赖 关系 按照 下 列 四 种 情况 进行 分 类 。 
(1) 真 依赖 ，(2) 反 依 赖 ， (3) 输出 依赖 ，(4) 无 依赖 关系 〈 即 两 
条 指令 可 以 按照 任何 顺序 出 现 ) 。 





图 10-5 一 组 展示 了 数据 依赖 性 的 赋值 语句 序列 


1) 语句 (1) 和 (4) 。 


2) 语句 (3) 和 (5) 。 

3) 语句 (1) 和 (6) 。 

4) 语句 (3) 和 (67. 

5) 语句 (4) 和 (6) 。 

练习 10.2.2: 严格 按照 括号 顺序 〈 即 不 使 用 交换 律 和 结合 律 来 改变 
加 法 的 顺序 ) 对 表达 式 〈 (utv) + (w+x) ) + (y+z) 求 值 。 给 出 寄存 
器 层次 的 机 器 代码 ， 要 求 此 代码 具有 尽 可 能 大 的 并 行 性 。 

练习 10.2.3: 对 下 列表 达 式 重复 练习 10.2.2。 





1) (ut (v+ CW+X) ) ) + (y+z) 

2) (ut (vtw) ) + (CX+ (y+z) ) 

如 有 果 我 们 不 是 要 把 并 行 性 最 大 化 ， 而 是 要 最 小 化 所 用 的 寄存 器 数 
A 0 
少 步骤 ? 


练习 10.2.4: 练习 10.2.2 中 的 表达 式 可 以 使 用 图 10-6 中 的 指令 序列 来 
执行 。 如 果 我 们 有 足够 多 的 并 行 机 制 ， 执 行 这 些 指令 需要 多 少 步 ? 


I 





LD ri, u 
LD r2, v 
ADD ri, ri, 
LD x2 而 
LD E33 区 
ADD r2, r2, 
ADD ri1i, ri, 
LD Tz2; 六 
LL 3 受 
1D 十 宇 。 
ADD ri1i, ri, r2 


1) 
2) 
3) 
4) 
5) 
6) 
7) 
8) 
9) 
0) 
1) 


pd fk 





图 10-6 ”一 个 算术 表达 式 的 使 用 最 少 寄存 器 的 实现 


! 练习 10.2.5: 使 用 10.2.6 节 中 的 条 件 拷贝 指令 cMovz 来 翻译 例 10.4 
中 的 代码 片断 。 机 器 代码 中 的 数据 依赖 关系 是 什么 ? 


10.3 ”基本 块 调度 


我 们 现在 可 以 开始 讨论 代码 调度 算法 了。 我 们 从 最 简单 的 问题 开 
始 : 对 一 个 由 机 器 指令 组 成 的 基本 块 进行 调 度 。 给 出 这 个 问题 的 最 优 解 
的 复杂 度 是 NP 完全 的 。 但 是 在 实践 中 ， 一 个 典型 的 基本 块 只 有 少量 相 
互 之 间 高 度 约 束 的 运算 ， 因 此 使 用 简单 的 调度 算法 就 足够 了 。 我 们 将 介 
绍 一 个 称 为 列表 调度 (list scheduling〉 的 简单 且 非 常 高 效 的 算法 来 解决 
这 个 问题 。 














10.3.1 ”数据 依赖 图 


我 们 把 每 个 由 机 器 指令 组 成 的 基本 块 表 示 成 为 一 个 数据 依赖 
(data-dependence graph) ，G= (NE) ， 其 中 结 点 集合 N 表 示 基 本 块 中 
机 器 指令 的 运算 ， 而 有 癌 边 集合 E 表 示 运 算 之 间 的 数据 依赖 约束 。G 的 
结 点 集合 和 边 集 按照 如 下 方式 构造 : 


1) 在 N 中 的 每 个 运算 nx 有 一 个 资源 预约 表 RTn， 其 值 就 是 n 的 运算 类 
型 所 对 应 的 资源 预约 表 。 


2) E 中 的 每 条 边 e 有 一 个 表示 延 时 的 标号 ds。 该 标号 表明 目标 结 氮 
必须 在 源 结 点 发 出 后 至 少 de 个 时 钟 周期 之 后 发 出 。 假 设 运算 ni 之 后 跟 有 
运算 nz， 并 且 两 条 指令 访问 同一 个 内 存 位 置 ， 访 问 的 延 时 分 别 为 1 和 ]>。 
也 就 是 说 ， 该 位 置 上 的 值 在 第 一 条 指令 开始 之 后 的 第 lL1 个 时 钟 周期 生 
成 ， 且 第 二 条 指令 在 其 开始 后 的 第 1 个 时 钟 周期 需要 这 个 值 。 请 注意 ， 
在 通常 情况 下 1=1 而 =0。 那 么 ，E 中 有 一 个 延 时 标号 为 1-l> 的 边 


D1 一 Do2。 














考 碟 一 个 可 以 在 每 个 时 钟 周期 内 执行 两 个 运算 的 机 器 。 其 中 第 
一 个 运算 必须 是 分 文 运算 或 者 以 下 形式 的 ALU 运 算 : 





0P dst, srcl, src2 








第 二 个 运算 必须 是 如 下 形式 的 加 载运 算 或 者 保存 运算 : 


LD dst, addr 
ST addr, src 


其 中 的 加 载运 算 〈LD) 是 完全 流水 线 化 的 并 占用 两 个 时 钟 周 期 。 但 
征 ， 一 个 加 载运 算 后 面 可 以 立刻 跟 一 个 同 被 该 内 存 地 址 进行 号 运算 的 保 
存 运算 ST。 所 有 其 他 的 运算 都 在 一 个 时 钟 周 期 内 完成 。 


资源 预约 表 的 图 示 方 法 


把 一 个 运算 的 资源 预约 表 用 实心 和 空心 方块 组 成 的 网 格 可 视 化 地 
表示 出 来 是 非常 有 用 的 。 在 网 格 中 ， 每 一 列 对 应 于 目标 机 器 上 的 一 种 
资源 ， 而 每 一 行 表示 该 运算 执行 中 的 一 个 时 钟 周期 。 假 设 对 于 每 种 类 
型 的 资源 ， 这 个 运算 最 多 只 需要 一 个 单元 ， 我 们 残 可 以 使 用 实心 方块 
表示 1， 用 空心 方 僚 表示 0。 为 外 ， 如 末 该 指令 是 完全 流水 线 化 的 ， 那 

















么 只 需要 指明 在 第 一 行 中 使 用 的 资源 ， 相 应 的 资源 现 约 表 变 成 了 站 
一行。 


例如 ， 这 个 表示 方式 在 例 10.6 中 使 用 。 在 图 10-7 中 ， 我 们 可 以 看 
到 各 个 资源 预约 表 都 是 单行 的 。 其 中 的 两 个 加 法 运算 需要 “alu” 资 
源 ， 而 加 载 和 保存 运算 需要 “mem” 资 源 。 





图 10-7 中 显示 的 是 一 个 基本 块 例子 的 依赖 图 和 它 的 资源 需求 。 我 们 
可 以 想像 Ri 是 一 个 栈 指 针 ， 用 来 通过 诸如 0 或 者 12 这 样 的 偏 移 量 访问 栈 
中 的 数据 。 第 一 条 指令 回 寄存 器 R2 中 加 载 数 据 ， 直 到 两 个 时 钟 周期 之 后 
这 个 数据 才 变 得 在 R2 中 可 用 。 这 就 是 从 第 一 条 指令 到 第 二 及 第 五 条 指令 
的 边 的 标号 为 2 的 原因 ， 这 两 条 指令 都 需要 R2 中 的 值 。 类 似 地 ， 从 第 三 
条 指令 到 第 四 条 指令 的 边 也 有 标号 表明 延 时 为 2， 第 四 条 指令 需要 和 被 加 
0 
可 用 。 











数据 依赖 关系 资源 预约 表 


alu mem 
LD R2,0(R1) 


ST 4(R1),R2 


\ 
2 

lL i 
1 


1 


























gH 


| sa 0O(R7),R7 | 


图 10-7 例 10.6 的 数据 依赖 图 


因为 我 们 不 知道 RL 和 R7 的 值 之 间 有 什么 样 的 关系 ， 所 以 不 得 不 考虑 
地 址 8〈R1) 和 地 址 0 CR1) 相同 的 可 能 性 。 也 就 是 说 ， 最 后 一 条 指令 可 
能 正在 把 值 保 存 到 第 三 条 指令 读 取 数 据 的 位 置 。 我 们 正 使 用 的 机 器 模型 
允许 我 们 在 从 茶 个 位 置 开始 读 取 数 据 的 一 个 时 钟 周期 之 后 把 数据 存放 到 
这 个 位 置 上 ， 即 使 被 读 出 的 数据 需要 再 等 一 个 时 钟 周期 才 出 现在 寄存 器 
中 。 这 就 是 从 第 三 条 指令 到 最 后 一 条 指令 的 边 的 标 写 为 1 的 原因 。 这 也 
同样 是 从 第 一 条 指令 到 最 后 一 条 指令 有 一 条 标 写 为 1 的 边 的 原因 。 其 他 
标号 为 1 的 边 产生 的 原因 是 指令 间 的 数据 依赖 关系 ， 或 者 当 R7 取 某 些 值 
时 可 能 产生 的 依赖 关系。 














10.3.2 ”基本 块 的 列表 调度 方法 


基本 块 调度 的 最 简单 的 方法 是 以 *“ 带 有 优 移 级 的 拓扑 排序 ?访问 数据 
依赖 图 的 各 个 结 氮 。 因 为 一 个 数据 依赖 图 中 不 可 能 有 环 ， 因 此 总 是 至 少 
存在 一 个 各 个 结 点 之 间 的 拓扑 顺序 。 但 是 ， 在 所 有 可 能 的 拓扑 排序 中 ， 











有 些 排序 可 能 比 其 他 排序 更 好 。 我 们 将 在 10.3.3 节 中 讨论 选择 拓扑 排序 
= 0 0 
了 了。 


下 面 我 们 将 讨论 的 列表 调度 算法 按照 被 选中 的 带 优 移 级 的 拓扑 排序 
访问 各 个 结 点 。 最 后 ， 这 些 结 点 并 不 一 定 按照 它们 被 访问 的 顺序 进行 调 
度 。 但 是 指令 和 被 尽 可 能 早 地 放置 在 调度 方案 中 ， 因 此 指令 被 调度 的 顺序 
往往 和 它们 被 访问 的 顺序 差不多 。 


更 详细 地 讲 ， 算 法 根据 每 个 结 点 和 之 前 已 调度 的 结 点 之 间 的 数据 依 
赖 约束 ， 计 算出 能 够 执行 该 结 点 的 最 早 时 间 位 置 。 然 后 ， 算 法 根据 一 个 
资源 预约 表 来 检验 该 结 点 所 需要 的 资源 是 否 得 到 满足 。 这 个 资源 预约 表 
收集 了 至 今 已 经 分 配 出 去 的 资源 的 信息 。 该 结 点 被 安排 在 最 早 的 能 够 获 
得 足够 资源 的 时 间 位 置 上 。 


对 一 个 基本 块 进行 列表 调度 


输入 : 一 个 机 器 -资源 向 量 R= [rur，] ， 其 中 rm 是 第 i 种 资源 的 可 
用 单元 的 数目 ， 一 个 数据 依赖 图 G= (NE) 。N 中 的 每 个 运算 n 的 标号 是 
它 的 资源 预约 表 RT,; E 中 的 每 个 边 e=n1 -nz 都 有 标号 du， 表 明 了 mn2 不 能 
在 ni 执行 之 后 的 de 个 时 钟 周期 之 内 执行 。 

输出 : 一 个 调度 方案 5。 它 把 N 中 的 每 个 运算 映射 到 时 间 位 置 中 。 


各 个 运算 在 方 采 所 确定 的 时 间 位 置 开 始 执 行 ， 就 可 以 保证 所 有 的 数据 依 
赖 关 系 和 资源 约束 都 得 到 满足 。 


方法 : 执行 图 10-8 中 的 程序 。 关 于 什么 是 “ 带 优先 级 的 拓扑 排序 ”的 
讨论 将 在 10.3.3 节 中 给 出 。 




















RT = 一 个 空 的 资源 预约 表 ; 
for (按照 带 优先 级 的 拓扑 排序 访问 NN 中 的 每 个 结 点 2 ) { 
5 二 Iaxe=p 一 m in E(S(p) de); 
/* 根据 一 个 指令 的 各 个 前 驱 在 何 时 开始 ， 
计算 这 个 指令 最 早 可 以 在 何 时 开始 */ 
while (存在 i 使 得 RT[s 二 各 十 RT,[i] > RR) 
ss 二 8 十 1]; 


/* 进一步 把 这 个 指令 后 延 ， 直 到 所 需 资源 
都 变 得 可 用 为 止 */ 


S(n) =s; 
for (所 有 7) 
RT[s+1i] = RTIs + + RT 





图 10-8 一 个 列表 指令 调度 算法 


10.3.3” 读 优先 级 的 拓扑 排序 


列表 调度 算法 不 会 回调 ， 它 对 每 个 结 点 进行 一 次 且 只 进行 一 次 指令 
调度 。 它 使 用 一 个 局 发 式 的 优先 级 函数 来 从 已 经 就 绪 的 结 扣 中 选择 下 一 
0 
JJ 性质: 


。 如 末 不 考虑 资源 约束 ， 最 短 的 调度 方案 可 以 根据 关键 路 径 (critical 
path)〉 给 出 。 所 谓 关 键 路 径 束 是 数据 依赖 图 中 的 最 长 路 径 。 一 个 可 
以 被 用 作 优 先 级 函数 的 度量 是 结 皮 的 高 度 (height) ， 束 是 从 这 个 
结 点 开始 的 最 长 路 径 的 长 度 。 

从 男 一 方面 考虑 ， 如 果 所 有 的 运算 都 是 独立 的 ， 那 么 调度 方案 的 长 
度 受 到 可 用 资源 的 约束 。 关 键 资源 束 是 具有 最 大 的 资源 使 用 /可 用 

数量 比值 的 资源 。 所 谓 资源 使 用 /可 用 数量 比值 是 指 对 资源 的 使 用 

i 
和 优先 级 。 

最 后 ， 我 们 可 以 使 用 源 代码 中 的 顺序 来 解决 运算 之 间 难 分 先后 的 问 
题 ， 在 源 程序 中 移出 现 的 运算 应 该 首先 被 安排 。 


对 于 图 10-7 中 的 数据 依赖 关系 ， 它 的 关键 路 径 的 (包含 了 执行 











最 后 一 条 指令 的 时 间 ) 长 度 是 6 个 时 钟 周 期 。 也 就 是 说 ， 关 键 路 径 是 最 
后 的 五 个 结 点 ， 从 Rs 的 加 载运 算 开始 到 对 R7 的 保存 运算 结束 。 这 条 路 径 
中 的 所 有 边 上 的 总 延 时 是 5， 此 外 我 们 还 要 再 加 上 执行 最 后 一 条 指令 所 
需 的 1 个 时 钟 周 期 。 

使 用 结 点 高 度 作为 优先 级 函数 ， 算 法 10.7 找 到 了 一 个 如 图 10-9 所 示 
的 优化 的 调度 方案 。 请 注意 ， 因 为 Ra 的 加 载 具 有 最 大 的 高 度 ， 因 此 安排 
这 条 指令 首先 执行 。Ra 和 R4 的 加 法 在 第 二 个 时 钟 周 期 就 有 足够 的 资源 ， 
但 是 一 条 加 载 指令 有 2 个 时 钟 周期 的 延 时 ， 因 此 我 们 把 这 个 加 法 安排 到 
第 三 个 时 钟 周 期 。 也 就 是 说 ， 在 第 3 个 时 钟 周期 开始 之 前 我 们 不 能 保证 
R3 中 已 经 保存 了 需要 的 值 。 


调度 方案 资源 预约 表 


alu mem 














图 10-9 ”将 列表 调度 算法 应 用 到 图 10-7 后 得 到 的 结果 
-HH R 
10.3.4 ”10.3 节 的 练习 


练习 10.3.1: 对 于 图 10-10 中 的 每 个 代码 片段 ， 画 出 数据 依赖 图 。 


LD RL，a 
LD .R235 
SUB R3, Ri1, R2 
ADD R2, R1, R2 


ST sa R3 
ST b, R2 


LD R1, a 
LD R2, b 
SUB R1, R1, R2 


ADD R2, Ri, R2 
ST a Ri 
ST b, BRB2 


LD R1, a 
LD R2, b 
SUB R3, R1, R2 
ADD R4, R1, R2 


ST a, R3 
ST b, R4 





b) 
图 10-10 ”练习 10. 3. 1 的 机 器 代码 


练习 10.3.2: 假设 一 个 机 器 具有 一 个 ALU 资 源 〈( 用 于 ADD 和 suB 运 
算 ) 和 一 个 MEM 资 源 (用 于 LD 和 sf 运算 ) 。 假 设 除 了 LD 运算 需要 两 个 
时 钟 周期 之 外 ， 其 余 所 有 运算 都 只 需要 一 个 时 钟 周期 。 但 是 ， 如 例 10.6 
中 所 说 ， 在 一 个 对 某 内 存 位 置 的 Lp 运算 执行 一 个 时 钟 周期 之 后 就 可 以 执 
RR 为 图 10-10 中 的 每 个 代码 片断 寻找 一 个 最 短 
仙 皮 万 条 。 


练习 10.3.3: 在 如 下 假设 下 重复 练习 10.3.2。 


1) 该 机 器 具有 一 个 ALU 资 源 和 两 个 MEM 资 源 。 











2) 该 机 器 具有 两 个 ALU 资 源 和 一 个 MEM 资 源 。 

3) 该 机 器 具有 两 个 ALU 资 源 和 两 个 MEM 资 源 。 

练习 10.3.4: 使 用 例 10.6 中 的 机 器 模型 (和 练习 10.3.2 一 样 ): 
1) 为 图 10-11 中 的 代码 画 出 数据 依赖 图 。 





图 10-11 练习 10. 3. 4 的 机 器 代码 


2) 对 于 问题 《1) 得 到 的 数据 依赖 图 ， 全 部 关键 路 径 包 括 哪些 ? 


3) 假设 有 无 限 多 个 MEM 资 源 ， 对 于 这 七 条 指令 的 所 有 可 能 的 调度 
方案 是 什么 ? 


10.4 全 局 代码 调度 


对 于 一 个 具有 中 等 数量 的 指令 并 行 机 制 的 机 器 ， 通 过 压缩 各 个 基本 
块 而 得 到 的 调度 方案 往往 会 留 下 很 多 空闲 的 资源 。 为 了 更 好 地 利用 机 器 
资源 ， 有 必要 考虑 把 一 些 指令 从 一 个 基本 块 移动 到 男 一 个 基本 块 的 代码 
生成 策略 。 同 时 考虑 多 个 基本 块 的 集 略称 为 全 局 调度 (global 
scheduling) 算法。 为 了 正确 地 进行 全 局 调度 ， 我 们 需要 考虑 的 问题 不 
仅 包括 数据 依赖 关系 ， 还 包括 控制 依赖 。 我 们 必须 保证 


1) 所 有 在 原 程序 中 执行 的 指令 都 会 在 优化 后 的 程序 中 运行 ， 并 且 


2) 虽然 优化 后 的 程序 可 以 投机 性 地 执行 一 些 额外 指令 ， 但 这 些 指 
令 不 能 产生 任何 有 害 的 副作用 。 





10.4.1 基本 的 代码 移动 


让 我 们 首先 通过 一 个 简单 的 例子 来 研究 一 下 指令 移动 可 能 涉及 的 问 
题 。 


假设 我 们 有 一 个 可 以 在 单个 时 钟 周 期 内 同时 执行 任意 两 条 指令 
， 。 除 了 加 载运 算 有 两 个 时 钟 周期 的 延 时 外 ， 其 余 每 个 运算 的 执行 
延 时 为 一 个 时 钟 周 期 。 为 简单 起 见 ， 我 们 假设 例子 中 所 有 的 内 存 访问 都 
是 正确 的 ， 且 访问 的 数据 都 在 高 速 缓存 中 。 图 10-12a 显 示 了 一 个 包括 三 
个 基本 块 的 简单 流 图 。 其 中 的 代码 被 扩展 为 图 10-12b 所 示 的 机 器 指令 。 
因为 数据 依赖 关系 ， 每 个 基本 块 中 的 所 有 指令 必须 顺序 执行 。 实 际 上 ， 
每 个 基本 块 中 都 必须 插入 一 个 no-op 指 令 。 














Bl1 


LD R6,0(R1) 








nop 
BEQZ R6,L 












LD R7,0(R2) 
no 


ST 0(R3),R7 


if (a==0) goto 工 























L:| LID R8,0(R4) Bs 
c=b nop 
ADD R8,R8,R8 
L: 一 ST 0(R5),R8 
| e = dtd | 
a) 源 程序 b) 局 部 调度 得 到 的 机 器 代码 





B 
LD R6,0(R1), LD R8,0(R4) 和 
LD R7,0(R2) 

ADD R8,R8,R8, BEQZ R6,L 

















Ls B 7 
| sr o(R5),R8 | | ST 0(R5),R8，ST 0(R3),R7 | 
c) 全 局 调度 得 到 的 机 器 代码 
图 10-12 例 10.9 中 全 局 调度 之 前 和 之 后 的 流 图 


假设 变量 a、b、c、d 和 e 的 地 址 互 不 相同 ， 并 且 这 些 地 址 被 分 别 存 
放 在 寄存 器 R1~R5 中 。 因 此 不 同 基本 块 中 的 计算 之 间 没 有 数据 依赖 关 
系 。 我 们 发 现 ， 不 窟 是 否 选 择 图 中 的 分 支 跳 转 ， 基 本 块 B3 中 的 所 有 运算 
都 会 被 执行 ， 因 此 它 可 以 和 基本 块 B1 中 的 运算 并 行 执行 。 我 们 不 能 把 Bj 
中 的 运算 移动 到 B3， 因 为 需要 它们 来 决定 分 文 跳 转 的 出 口 。 


B, 中 的 运算 和 基本 块 B1 中 的 测试 指令 之 间 具 有 控制 依赖 关系 。 我 们 
可 以 在 基本 块 Bi 中 投机 性 执行 B? 中 的 加 载运 算 而 不 会 产生 任何 附加 开 
销 ， 并 且 只 要 该 分 文 执行 ， 束 可 以 节约 两 个 时 钟 周 期 。 


保存 运算 不 应 该 投机 性 地 执行 ， 因 为 它们 覆 写 了 某 个 内 存 位 置 上 的 
原 值 。 但 是 可 以 延迟 执行 一 个 保存 运算 。 我 们 不 能 直接 把 B? 中 的 保存 运 
算 放 到 基本 块 Ba 中 ， 因 为 只 有 当 控制 流 经 过 基本 块 B> 时 才能 执行 这 个 保 
存 运算 。 但 是 ， 我 们 可 以 把 保存 运算 放 在 Bs 的 一 个 拷贝 中 。 图 10-12c 中 
显示 了 经 过 这 样 优化 后 的 调度 方案 。 优 化 后 的 代码 在 4 个 时 钟 周期 内 执 
行 完毕 ， 这 和 单独 执行 基本 块 B3 所 需 的 时 间 一 样 。 


例 10.9 表 明 我 们 可 以 沿 着 一 个 执行 路 径 上 下 移动 指令 。 在 这 个 例子 























中 ， 每 一 对 基本 块 都 有 一 个 不 同 的 “ 文 配 关系 ”， 因 此 关于 何 时 以 及 如 何 
在 每 一 对 基本 块 之 间 移 动 指令 的 考虑 是 不 同 的 。 如 9.6.1 节 中 所 讨论 的 ， 
如 果 每 一 个 从 控制 流 图 入 口 处 到 达 基 本 块 B' 的 路 径 都 经 过 一 个 基本 块 
B， 那 么 就 认为 B 文 配 B'。 类 似 地 ， 如 果 从 B' 到 达 流 图 出 口 处 的 路 径 都 经 
过 B， 我 们 说 B 反 向 支配 〈postdominate) B'。 当 B 支 配 B' 并 且 B' 反 向 支配 
B 的 时 候 ， 我 们 就 说 B 和 B' 是 控制 等 价 的 《control equivalent) ， 其 含义 
是 一 个 基本 块 会 被 执行 当 且 仅 当 另 一 个 基本 块 也 会 被 执行 。 对 于 图 10- 
12 中 的 例子 ， 假 设 B1 是 流 图 入 口 ， 且 Bs 是 出 口 ， 则 








1) Bl1 和 Bs 是 控制 等 价 的 ，B1 支 配 B3 而 Bs 反 向 支配 Bj。 
2) Bl 文 配 B，,，， 但 是 B, 不 反问 文 配 B1。 
3) B, 不 支配 Bs 但 是 B3 反 癌 支 配 B,。 


在 一 条 路 人 径 上 的 一 对 基本 块 之 间 也 可 能 既 不 具有 支配 关系 ， 也 不 具 
有 上 反 回 支配 关系 。 


10.4.2 ”向上 的 代码 移动 


我 们 现在 仔细 考查 把 一 个 运算 沿 着 一 条 路 径 同 上 移动 意味 着 什么 。 
假设 我 们 希望 把 一 个 运算 从 基本 块 src 沿 着 一 条 控制 流 路 径 向 上 移动 到 基 
本 块 dst。 同 时 假设 这 样 的 移动 没有 违反 任何 数据 依赖 和 关系， 并 且 使 得 从 
dst 到 src 的 路 径 运 行 得 更 快 。 如 果 dst 支 配 src 并 且 src 反 癌 支 配 dst， 那 么 被 
移动 的 运算 会 在 它 应 该 运行 的 时 候 被 恰好 运行 一 次 。 

如 果 src 不 反问 支配 dst 

这 种 情况 下 ， 存 在 一 条 经 过 dst 但 是 没有 到 达 src 的 路 径 。 此 时 会 执 
行 一 个 多 余 的 运算 。 除 非 被 移动 的 运算 没有 任何 有 害 的 副作用 ， 否 则 这 
个 代码 移动 就 是 非法 的 。 如 果 被 移动 的 运算 是 “免费 ”执行 的 〈 即 它 只 使 
用 那些 本 来 会 被 闲置 的 资源 ) ， 那 么 这 次 代码 移动 没有 产生 开销 。 只 有 
当 控 制 流 到 达 src 的 时 候 这 次 代码 移动 才 是 有 益 的 。 


如 果 dst 不 支配 src 








这 种 情况 下 存在 一 条 没有 首先 经 过 dst 就 到 达 src 的 路 径 。 我 们 需要 
在 这 样 的 路 径 中 插入 被 移动 运算 的 拷贝 。 根 据 9.5 节 中 对 部 分 元 余 消 除 
的 讨论 我 们 可 以 知道 如 何 准确 做 到 这 一 点 。 我 们 把 这 个 运算 的 拷贝 放置 
在 一 组 基本 块 中 ， 这 组 基本 块 形成 了 一 个 将 入 口 基本 块 和 src 分 割 开 的 割 
集 。 在 每 个 插入 这 个 拷贝 的 地 方 ， 下 列 约束 必须 满足 : 


1) 该 运算 的 运算 分 量 必 须 和 原 运 算 的 运算 分 量具 有 相同 的 值 。 

2) 运算 的 结果 没有 和 窟 盖 掉 可 能 在 后 面 使 用 的 值 。 

3) 此 运算 本 身 的 结果 没有 在 到 达 src 之 前 被 窗 盖 挥 。 

这 些 找 贝 使 得 src 中 的 原 指令 完全 元 余 ， 因 此 可 以 被 消除 。 

我 们 把 这 个 运算 指令 的 额外 拷贝 称 为 补偿 代码 (compen sation 
code) 。9.5 节 讨论 过 ， 可 以 在 关键 边 上 插入 基本 块 来 放置 这 些 拷贝 。 补 
偿 代 码 可 能 使 得 某 些 路 径 的 执行 变 慢 。 因 此 ， 只 有 当 被 优化 路 径 的 执行 
频率 高 于 其 他 未 被 优化 的 路 径 时 ， 这 个 代码 移动 才 会 提高 程序 执行 的 性 


会 已 
月 上 。 














10.4.3 ”加 下 的 代码 移动 


假设 我 们 感 兴趣 的 是 把 一 个 运算 从 基本 块 src 沿 独 一 条 控制 流 路 径 辐 
下 移动 到 基本 块 dst。 我 们 可 以 像 上 面 介绍 的 那样 考虑 这 样 的 代码 移动 。 


如 果 src 不 支配 dst 


在 这 种 情况 下 ， 存 在 一 条 没有 先 访问 src 就 到 达 dst 的 路 径 。 同 样 ， 
在 这 种 情况 下 会 执行 一 个 额外 的 运算 。 遗 憾 的 是 ， 向 下 代码 移动 经 常用 
于 写 运 算 。 这 种 运算 具有 副作用 ， 会 覆盖 原来 的 值 。 我 们 可 以 设法 绕 过 
这 个 问题 ， 方 法 是 复制 从 src 到 dst 的 路 径 上 的 基本 块 ， 并 且 只 在 dst 的 新 
拷贝 中 放置 这 个 运算 。 另 一 个 方法 是 ， 如 果 可 以 在 使 用 带 断 言 的 指令 时 
使 用 这 种 指令 。 我 们 用 基本 块 src 的 卫 式 断 言 作 为 被 移动 运算 的 卫 式 断 
言 。 请 注意 ， 这 些 带 断言 的 指令 只 能 被 安排 在 由 计算 该 断言 的 基本 块 所 
支配 的 基本 块 中 ， 否 则 该 断言 的 值 会 不 可 用 。 








如 果 dst 不 反问 支配 src 


和 上 面 的 讨论 一 样 ， 我 们 必须 插入 补偿 代码 以 使 得 被 移动 的 运算 在 
所 有 没有 到 达 dst 的 路 径 上 痢 被 执行 了 。 这 个 转换 仍然 和 部 分 见 余 消除 类 
似 ， 不 同 之 处 在 于 运算 的 拷贝 被 放置 在 基本 块 src 之 后 、 把 src 和 流 图 出 
口 处 分 开 的 割 集中 。 


关于 向 上 和 同 下 代码 移动 的 总 结 

从 上 面 的 讨论 中 可 知 ， 我 们 看 到 存在 一 组 可 能 的 全 局 代码 移动 的 方 
法 。 这 些 方法 的 收益 、 代 价 以 及 实现 复杂 度 各 不 相同 。 图 10-13 中 给 出 
了 这 些 代码 移动 方法 的 总 结 。 图 中 的 各 行 对 应 于 下 面 四 种 情况 : 

1) 在 控制 等 价 的 基本 块 之 间 移 动 指令 最 简单 且 性 价 比 最 高 。 不 需 
要 执行 额外 的 运算 ， 也 不 需要 补偿 代码 。 

2) 在 同上 【向 下 ) 代码 移动 中 ， 如 宋 源 基本 块 不 反 回 文 配 《 文 
配 ) 目标 基 本 块 ， 那 么 就 可 能 需要 执行 额外 的 运算 。 当 该 和 额外 运算 能 够 
0 0 0 

3) 在 同上 【向 下 ) 代码 移动 中 ， 如 果 目 标 基 本 块 不 支配 ( 反 同 文 
配 ) 源 基 本 块 ， 就 需要 补偿 代码 。 带 有 补偿 代码 的 路 径 的 运行 可 能 会 变 
慢 ， 因 此 保证 被 优化 的 路 径 具 有 较 高 的 执行 频率 是 很 重要 的 。 

4) 最 后 一 种 情况 把 第 二 和 第 三 种 情况 的 不 利之 处 合并 了 起 来 : 可 
能 既 需 要 执行 额外 运算 ， 又 需要 补偿 代码 。 


| 


否 

人 
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是 






























向 上 : src 反 向 支配 dst | ”dst 支配 src 
向 下 : src 支 配 dst dst 反 向 支配 src 


日 
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必 局 一 
鸡 池 开放 
允 叫 法 湛 





图 10-13 ”代码 移动 的 总 结 


10.4.4 ”更 新 数据 依赖 关系 


如 下 面 的 例 10.10 所 示 ， 代 码 移动 可 能 会 改变 运算 之 间 的 数据 依赖 
关系 。 因 此 在 每 次 代码 移动 之 后 都 必 须 更 新 数据 依赖 关系 。 


0 对 了 网 10 14 中 品 示 的 流 图 ， 对 x 的 两 个 贞 信之 可 以 被 向上 
多 动 到 栅 部 的 基本 块 ， 因 为 这 样 的 转换 保持 了 原 程序 中 的 所 有 依赖 关 
系 。 但 是 ， 一 但 我 们 把 其 中 一 个 赋值 语句 上 移 ， 就 不 能 再 移动 另 一 个 。 
更 明确 地 说 ， 我 们 看 到 在 代码 移动 之 前 顶部 的 基本 块 的 出 口 处 x 是 不 活 
跃 的， 但 是 在 移动 之 后 就 变 得 活跃 了 。 如 果 一 个 变量 在 一 个 程序 点 上 活 
跃 ， 那 么 我 们 不 能 把 对 该 变量 的 投机 性 定 值 移动 到 该 程序 点 的 前 面 。 











图 10-14 说 明 因 为 代码 移动 而 改变 数据 依赖 关系 的 例子 


10.4.5 全 局 调度 算法 


在 上 一 节 中 ， 我 们 看 到 代码 移动 对 某 些 路 径 有 益 ， 但 是 会 损害 另外 
一 些 路 径 的 性 能 。 好 消息 是 指令 并 不 是 生 而 平等 的 。 实 际 上 ， 我 们 知 
道 ， 一 个 程序 的 90% 以 上 的 执行 时 间 被 花 在 不 到 10% 的 代码 上 。 因 此 ， 
我 们 可 以 把 目标 确定 为 使 得 频繁 执行 的 路 径 更 快运 行 ， 虽然 有 可 能 降低 
不 频繁 路 径 的 运行 速度 。 


编译 器 有 多 种 技术 来 估算 执行 频率 。 我 们 有 理由 假设 在 最 内 层 的 循 
环 中 的 指令 比 外 层 循环 中 的 指令 执行 得 更 频繁 ， 也 有 理由 假设 选择 向 回 
跳 转 分 文 的 使 用 频率 高 过 不 选择 这 个 分 文 的 使 用 频率 。 另 外 ， 转 回程 序 
出 口 或 者 民利 处 理 例 程 的 分 文 不 大 可 能 被 选 择 执行 。 但 是 ， 最 好 的 频率 
估算 来 自 于 动态 获取 的 程序 运行 剖面 。 在 这 个 技术 中 ， 程 序 经 过 插 装 以 
记录 程序 运行 时 刻 各 个 条 件 分 支 的 出 口 选择 情况 。 然 后 ， 程 序 就 在 有 代 
表 性 的 输入 上 运行 ， 确 定 程序 总 体 的 运行 行为 。 人 们 发 现 应 用 这 个 技术 

















得 到 的 结果 相当 精确 。 这 样 的 信息 可 以 反馈 给 编译 堪 ， 由 编译 器 在 其 优 
化 过 程 中 使 用 。 


基于 区 域 的 调度 


和 现在 我 们 摘 述 一 个 简单 的 全 局 调度 器 ， 它 文 持 两 种 最 容易 的 代码 移 
ZJ : 


1) 把 运算 向 上 移动 到 控制 等 价 的 基本 块 。 
2) 把 运算 同上 移动 一 个 分 文 ， 移 动 到 一 个 文 配 前 驱 中 。 


9.7.1 节 介绍 过 ， 一 个 区 域 是 一 个 控制 流 图 的 子 集 ， 它 只 能 通过 一 个 
入 口 基本 块 到 达 。 我 们 可 以 把 任何 过 程 表示 为 一 个 区 域 的 层次 结构 。 顶 
层 区 域 包括 整个 过 程 ， 而 嵌 套 在 其 中 的 子 区 域 代表 该 过 程 中 的 目 然 循 
环 。 我 们 假设 控制 流 图 是 可 归 约 的 。 


基于 区 域 的 调度 。 

输入 : 一 个 控制 流 图 和 一 个 机 器 -资源 描述 

输出 :一 个 调度 方案 $5。 它 把 每 条 指令 映射 到 一 个 基本 块 和 一 个 时 
间 位 置 。 


方法 : 执行 图 10-15 中 的 程序 。 其 中 的 一 些 术 ; | 
显 的 : ControlEquiv 〈(B) 表示 和 基本 块 B 控 制 等 价 的 基本 块 的 集合 ， 
作用 于 一 个 基本 块 集合 的 DominatedSucc 表 示 下 面 的 基本 块 集合 : a 
0 
配 。 

















for (按照 拓扑 排序 访问 各 个 区 域 尺 ， 使 得 内 层 区 域 先 于 
外 层 区 域 被 访问 ) 
{ 计算 数据 依赖 关系 ; 
for (按照 带 优先 级 的 拓扑 排序 访问 及 中 的 每 个 基本 块 B ) { 

CandBlocks = ControlBquiv(B) U 
DominatedSucc( Controlbquiv( B)); 

CandInsts 二 CandBlocks 中 已 可 以 被 调度 的 指令 ; 

for (t = 0,1,... 直到 B 中 的 所 有 指令 都 已 经 调度 完毕 ) { 
for (按照 优先 顺序 访问 CandInsts 中 的 每 个 指令 n ) 


站 (nt 在 时 刻 t 上 没有 资源 冲突 ) { 
S(n) = (B,D); 
更 新 已 分 配 资源 的 信息 ; 
更 新 数据 依赖 关系 ; 


更 新 CandInsts; 





图 10-15 一 个 基于 区 域 的 全 局 调度 算法 


算法 10.11 中 的 代码 调度 从 最 内 层 的 区 域 开 始 逐渐 扩展 到 最 外 层 。 
在 对 一 个 区 域 进 行 调度 时 ， 每 一 个 内 骨 的 子 区 域 都 被 当 作 一 个 黑 盒 子 ， 
指令 不 能 移入 或 移出 某 个 子 区 域 。 但 是 ， 只 要 指令 的 数据 依赖 天 系 和 控 
制 依 赖 天 系 都 得 到 满足 ， 我 们 可 以 绕 着 子 区 域 移动 这 些 指令 。 


算法 忽略 了 所 有 尝 回 区 域 尖 基本 块 的 控制 和 依赖 边 ， 因 此 最 后 得 到 
的 控制 流 和 数据 依赖 图 都 是 无 环 的 。 对 每 个 区 域 中 的 各 基本 块 的 访问 遵 
守 拓 扑 排 序 。 这 个 顺序 保证 了 只 有 在 该 基本 块 所 依赖 的 所 有 指令 都 被 调 
度 好 之 后 才 对 这 个 基本 块 进行 调度 。 将 被 安排 在 一 个 基本 块 B 中 的 指令 
来 自 于 所 有 和 基本 块 B 控 制 等 价 的 基本 块 (包含 B) ， 以 及 这 些 等 价 基 
本 块 的 、 被 B 文 配 的 直接 后 继 。 


为 各 个 基本 块 创建 调度 方案 时 使 用 的 是 列表 调度 算法 。 该 舞 法 有 一 
个 候选 指令 列表 CandInsts， 这 个 列表 中 包含 了 候选 基本 块 中 的 所 有 其 前 
驱 已 调度 好 的 指令 。 该 算法 逐个 时 钟 周期 地 构造 调度 方案 。 对 于 每 个 时 
钟 周 期 ， 它 按照 优先 级 顺序 检查 CandInsts 中 的 各 条 指令 ， 在 资源 允许 的 
情况 下 把 指令 安排 在 该 时 钟 周 期 上 。 然 后 ， 算 法 10.11 更 新 CandInsts 并 
重复 这 个 过 程 ， 直 到 B 中 所 有 指令 都 被 安排 完毕 。 





























CandInsts 中 的 指令 的 优先 级 顺序 所 使 用 的 优先 级 函数 和 10.3 厂 中 讨 
论 过 的 函数 类 似 。 然 而 ， 我 们 作 了 一 个 重要 的 修改 。 我 们 把 较 高 的 优先 
级 赋予 那些 来 自 和 基本 块 B 控 制 等 价 的 基本 块 的 指令 ， 而 对 来 自 于 后 继 
基本 块 的 指令 赋予 较 低 的 优先 级 。 这 么 做 的 原因 是 后 一 种 类 型 的 指令 只 
古 在 基本 块 B 中 被 投机 性 执行 。 


循环 展开 


在 基于 区 域 的 调度 中 ， 一 个 循环 中 欠 代 之 间 的 界限 是 代码 移动 的 障 
碍 。 来 和 目 一 个 迭代 的 运算 不 能 和 来 自 其 他 迭代 的 运算 重 登 。 可 缓解 这 一 
和 
for 循 环 








for (i We 二 区 4 4 
SU 
} 
可 以 被 写成 图 10-16a 所 示 的 代码 。 类 似 地 ， 如 下 的 repeat 循 环 


repeat 
S; 
nll 


可 以 被 写成 图 10-16b 所 示 的 代码 。 循 环 展 开 在 循环 体 中 产生 了 更 多 的 指 
令 ， 使 全 局 调度 算法 找到 更 多 的 并 行 性 。 


for (i = 0; i+4 < N; i+=4) { repeat { 
S(i); S ; 
S(i+1); if (C) break; 
S(i+2); S; 
S(i+3); if (C) break; 


} S ; 

f6r ( $< Ny i++) 蕊 if (C) break; 
S(i); Sy 

} } until C; 





a) 展开 一 个 for 循 环 b) 展开 一 个 repeat 循 环 
图 10-16 ”循环 的 展开 


相 邻 压缩 


算法 10.11 只 支持 10.4.1 市 中 搬 述 的 前 两 种 形式 的 代码 移动 。 需 要 引 
入 补偿 代码 的 代码 移动 有 时 也 是 有 用 的 。 支 持 这 种 代码 移动 的 方法 之 一 
古 在 基于 区 域 的 调度 之 后 再 跟 一 个 简单 的 处 理 过 程 。 在 这 个 过 程 中 ， 我 
们 可 以 检查 各 对 连续 执行 的 基本 块 ， 检 查 是 舍 有 运算 可 以 在 它们 之 间 上 
移 或 下 移 ， 以 改进 这 些 基 本 块 的 执行 时 间 。 如 果 找 到 了 一 对 这 样 的 基本 
块 ， 我 们 检查 是 否 需 要 在 别 的 路 人 径 中 复制 将 被 移动 的 指令 。 如 果 移动 之 
后 的 预期 收益 是 正 的 ， 惑 可 以 进行 这 样 的 代码 移动 。 


这 个 简单 的 扩展 能 够 有 效 提高 循环 的 性 能 。 比 如 ， 它 可 以 把 一 个 达 
代 开 始 处 的 运算 移动 到 上 一 个 达 代 的 结尾 ， 同 样 也 可 以 把 运算 从 第 一 个 
达 代 移动 到 循环 之 外 。 对 于 较 紧 密 的 循环 ， 即 每 个 达 代 过 程 只 执行 少量 
站 令 的 循环 ， 这 种 优化 特别 具有 吸引 力 。 但 是 ， 由 于 每 个 代码 移动 的 决 
定 是 局 部 地 独立 做 出 的 ， 因 此 这 个 技术 的 效果 受到 一 定 的 限制 。 





























10.4.6 ”高 级 代码 移动 技术 


如 果 我 们 的 目标 机 器 是 静态 调度 的 ， 并 且 具 有 丰富 的 指令 级 并 行 机 
制 ， 我 们 可 能 需要 更 加 积极 的 调度 算法 。 下 面 是 有 关 进 一 步 扩展 代码 移 
动 扩 术 的 一 些 高 级 描述 : 


1) 为 了 便于 进行 下 面 的 扩展 ， 我 们 可 以 在 那些 从 具有 多 个 前 驱 的 
基本 块 出 发 的 控制 流 边 上 增加 新 的 基本 块 。 在 代码 调度 线束 后 将 删除 这 














些 基 本 块 中 的 空 基 本 块 。 一 个 有 用 的 局 发 式 规 则 是 试图 把 指令 移出 几乎 
为 空 的 基本 块 ， 使 得 这 个 基本 块 可 以 被 完全 删除 。 


2) 在 算法 10.11 中 ， 各 基本 块 内 执行 的 代码 在 此 基本 块 被 访问 时 一 
次 性 调度 完毕 。 这 个 简单 的 方法 已 经 足够 了 ， 因 为 这 个 算法 只 能 够 把 运 
算 上 移 到 前 面 的 文 配 基本 块 。 为 了 进行 需要 额外 补偿 代码 的 代码 移动 ， 
我 们 选用 了 一 个 略微 不 同 的 方法 。 当 我 们 访问 基本 块 B 的 时 候 ， 只 对 B 
以 及 和 B 控 制 等 价 的 基本 块 中 的 指令 进行 调度 。 我 们 首先 试图 把 这 些 指 
令 放 置 到 之 前 已 经 被 访问 过 的 前 驱 基本 块 中 。 这 些 基本 块 已 经 有 了 一 个 
部 分 调度 方案 。 我 们 试图 找到 一 个 目标 基本 块 ， 使 得 移动 后 可 以 改进 一 
个 频 楷 执行 的 路 径 ， 然 后 在 其 他 路 径 上 放置 这 条 指令 的 拷贝 来 保证 移动 
的 正确 性 。 如 果 指 令 不 能 同上 移动 ， 那 么 它们 和 以 前 一 样 在 当前 的 基本 
块 中 进行 调度 。 

3) 在 以 拓扑 顺序 访问 基本 块 的 算法 中 ， 实 现 癌 下 的 代码 移动 要 更 
加 困难 一 些 ， 原 因 是 目标 基本 块 还 在 等 竺 调度 。 虽 然 机 会 较 少 ， 但 还 是 
存在 一 些 机 会 进行 这 样 的 代码 移动 。 我 们 会 移动 所 有 同时 满足 下 列 条 件 
的 运算 : 

中 它们 可 以 被 移动 。 

@ 在 原来 的 基本 块 中 它们 不 能 免费 执行 。 
000 
效 。 























10.4.7 ”和 动态 调度 器 的 交互 








一 个 动态 调度 器 的 优势 是 它 可 以 根据 运行 时 刻 的 情况 产生 新 的 调度 
方案 ， 而 不 必 在 运行 之 前 对 所 有 可 能 的 调度 进行 编码 。 如 果 目 标 机 器 有 
一 个 动态 调度 器 ， 那 么 静态 调度 器 的 主要 功能 是 保证 义 早 获得 高 延 时 指 
令 ， 使 得 动态 调度 莫 可 以 尽早 及 出 这 些 指 令 。 

局 速 缓存 脱 靶 是 一 类 不 可 预测 的 事件 ， 它 们 可 能 使 得 程序 的 性 能 


很 大 的 不 同 。 如 果 可 以 使 用 数据 预 取 指令 ， 那 么 静态 调度 器 可 以 较 早 地 
放置 这 些 预 取 指 令 以 使 得 在 需要 相应 数据 时 ， 数 据 已 经 在 高 速 缓存 之 


























中 。 静 态 调 度 器 通过 这 种 方式 有 效 地 帮助 动态 调度 器 。 如 果 没 有 预 取 指 
令 可 用 ， 编 译 器 可 以 估算 一 下 哪些 运算 可 能 会 发 生 高速 绥 存 脱 对 ， 并 试 
图 早 一 点 发 出 这 些 运算 指令 。 


如 于 在 目标 机 器 上 没有 动态 调度 机 制 ， 静 态 调 度 需 必须 保守 地 处 理 
调度 问题 ， 把 每 对 具有 数据 依赖 关系 的 运算 分 开 ， 使 它们 之 间 的 间隔 不 
小 于 最 小 延 时 。 但 是 ， 如 果 有 动态 调度 器 可 用 ， 编 译 器 只 需要 把 具有 数 
据 依赖 关系 的 运算 指令 按照 正确 的 顺序 排列 ， 以 保证 程序 的 正确 性 。 为 
了 得 到 最 佳 性 能 ， 编 译 占 应 该 给 较 有 可 能 发 生 的 依赖 赋予 较 长 的 延 时 ， 
给 不 大 可 能 发 生 的 依赖 赋予 较 短 的 延 时 。 


分 文 的 错误 预测 是 性 能 下 降 的 重要 原因 之 一 。 因 为 错误 预测 会 融 来 
较 长 的 时 间 损 失 ， 较 少 执行 路 径 上 的 指令 仍然 会 对 整个 执行 时 间 产生 较 
SR 
测 的 代价 。 

















10.4.8 10.4 节 的 练习 


练习 10.4.1: 指出 如 何 展开 一 般 的 while 循 环 


While (C) 
9 


! 练习 10.4.2: 考虑 代码 片断 : 


if (x == 0) a = Pb; 
else a = c; 
d = a; 


假设 有 一 个 机 器 使 用 了 例 10.6 中 的 延 时 模型 〈 即 加 载运 算 需 要 两 个 
时 钟 周期 ， 其 他 指令 需要 一 个 时 钟 周期 。 同 时 假设 该 机 器 可 以 一 次 执 
行 任意 两 条 指令 。 为 这 个 片断 找 出 一 个 最 短 的 执行 方法 。 不 要 起 记 考 虑 
在 各 个 复制 步 又 中 使 用 哪个 寄存 器 最 好 。 同 时 ， 记 住 利 用 8.6 市 中 描述 
的 寄存 器 描述 符 所 提供 的 信息 ， 以 避免 不 必要 的 加 载 和 保存 运算 。 





10.5 ”软件 流水 线 化 


正如 在 本 章 的 引言 部 分 所 讨论 的 ， 数 值 应 用 往往 具有 很 大 的 并 行 
性 。 特 别 地 ， 它 们 经 常 含 有 各 次 迭代 之 间 相 互 完 全 独立 的 循环 。 从 并 行 
化 的 角度 看 ， 这 些 被 称 为 do-all 循 环 的 循环 很 有 吸引 力 ， 原 因 是 它们 的 
进 代 可 以 并 行 执 行 ， 其 加 速 比 和 循环 的 迭代 数目 呈 线 性 关系 。 上 有 具有 很 多 
运 代 的 do-all 循 环 具 有 的 并 行 性 足以 充满 一 个 处 理 器 的 所 有 资源 。 能 人 否 
充分 利用 循环 中 的 可 用 并 行 性 完全 依赖 于 调度 器 的 能 力 。 本 市 描述 一 个 
被 称 为 软件 流水 线 化 (software pipelining) 的 算法 。 它 可 以 同时 对 整个 
循环 进行 调度 ， 充 分 利用 各 个 欠 代 之 间 的 并 行 性 。 


10.5.1 引言 


在 本 节 中 ， 我 们 将 使 用 例 10.12 中 的 do-all 循 环 来 解释 软件 流水 线 
化 。 我 们 首先 说 明 跨 越 迭 代 的 调度 极其 重要 ， 原 因 古 在 单一 达 代 过 程 中 
的 运算 之 间 的 并 行 性 相对 较 小 。 然 后 ， 我 们 说 明 循环 展开 技术 通过 让 被 
展开 从 代 相互 重 有 登 执 行 来 提高 程序 的 性 能 。 但 是 ， 被 展开 循环 之 间 的 界 
限 仍然 为 代码 移动 设置 了 障碍 ， 还 有 很 多 可 改进 性 能 机 会 没有 被 循环 展 
开 技 术 充 分 利用 。 男 一 方面 ， 软 件 流水 线 化 技术 将 多 个 连续 的 迭代 持续 
地 交 奴 执行 ， 直 到 所 有 迭代 执行 完毕 为 止 。 这 个 技术 使 得 软件 流水 线 化 
技术 可 以 生成 高 效 紧 凑 的 代码 。 


下 面 是 一 个 典型 的 do-all 循 环 : 


for (i = 0; i < n; i++) 
D[i] = A[i]*B[i] + c; 
上 面 循 环 中 各 个 迭代 对 不 同 的 内 存 位 置 执行 写 运 算 ， 而 这 些 被 写 的 
位 置 不 同 于 任何 被 读 的 位 置 。 因 此 各 个 迭代 之 间 没 有 内 存 依赖 关系 ， 所 
有 的 迭代 都 可 以 并 行 地 进行 。 


在 本 节 中 ， 我 们 选择 下 面 的 模型 作为 目标 机 器 。 在 这 个 模型 中 ， 











。 机 需 可 以 在 同一 个 时 钟 周期 内 发 出 : 一 个 加 载运 算 、 一 个 保存 运 
算 、 一 个 算术 运算 和 一 个 分 文 运算 。 
。 机 器 有 一 个 如 下 形式 的 循环 回归 运算 指令 








BL R, L 


这 个 运算 把 寄存 器 R 的 值 减 一 ， 并 且 在 结果 不 为 0 的 情况 下 跳 转 到 位 
工 。 


。 内 存 运 算 有 一 个 目 动 加 一 的 寻 址 模式 ， 通 过 寄存 器 之 后 的 ++ 符 号 表 
人 


。 算 术 运 算是 完全 流水 线 化 的 。 每 个 时 钟 周期 可 以 启动 一 个 算术 运 
算 ， 但 是 结果 要 到 2 个 时 钟 周 期 后 才 可 用 。 所 有 其 他 指令 的 执行 延 
时 为 一 个 时 钟 周期 。 


如 果 每 次 只 对 一 个 欠 代 进行 调度 ， 那 么 在 这 个 机 器 模型 上 得 到 的 最 
好 调度 方案 如 图 10-17 所 示 。 该 图 中 也 指明 了 一 些 有 关 数 据 布局 的 假 
设 : 寄存 器 RI1、R2 和 R3 存 放 数 组 A、B 和 DD 的 开始 地 址 ， 寄 存 器 R4 存 放 常 
量 c， 而 寄存 器 R10 存放 值 n-1， 这 个 值 在 循环 之 外 计算 。 这 个 计算 过 程 
大 部 分 是 串 行 的 ， 共 需要 7 个 时 钟 周 期 。 只 有 循环 回归 运算 指令 的 执行 
和 迭代 的 最 后 一 个 运算 的 执行 重叠。 




















// Ri, R2, R3 = &A, &B, &D 
// RA =c 
// R10 = n-1 
L: LD R5, O(R1++) 
LD R6, 0(R2++) 
MUL R7, R5, R6 
nop 
ADD R8, R7, R4 
nop 
ST 0(R3++), R8 BL R10, L 








图 10-17 例 10.12 的 局 部 调度 代码 


一 般 来 说 ， 我 们 可 以 展开 一 个 循环 的 多 个 达 代 来 获得 较 好 的 人 硬件 利 


用 率 。 但 是 这 么 做 会 增加 代码 的 大 小 ， 会 对 程序 的 整体 性 能 产生 负面 影 

啊 。 因 此 ， 我 们 必须 选择 一 个 折 惠 方 案 ， 选 择 适 当 的 迭代 展开 次 数 以 选 

0 
衷 方案 。 


虽然 在 例 10.12 中 循环 的 各 个 迭代 内 部 几乎 找 不 到 并 行 性 ， 但 

上 达 代 之 间 依 然 具 有 很 多 并 行 性 。 循 环 展开 技术 把 该 循环 的 多 个 帮 代 

放 到 一 个 大 基本 块 中 ， 然 后 使 用 一 个 简单 的 列表 调度 算法 来 对 这 些 运算 

进行 调度 ， 使 之 并 行 运行 。 如 果 把 我 们 的 例子 中 的 循环 展开 四 次 并 把 算 

法 10.7 应 用 于 展开 得 到 的 代码 ， 那 么 就 可 以 得 到 图 10-18 显 示 的 调度 方案 

(为 简单 起 见 ， 我 们 忽略 寄存 器 分 配 的 细节 ) 。 这 个 循环 执行 了 13 个 时 
钟 周期 ， 或 者 说 每 个 达 代 执行 3.25 个 周期 。 











ST BL (L) 





图 10-18 例 10. 12 的 未 展开 的 代码 


一 个 被 k 次 展开 的 循环 至 少 需要 2k+5 个 时 钟 周期 ， 得 到 的 吞吐 量 是 
每 2+5/k 个 时 钟 周期 一 个 迭代 。 因 此 ， 我 们 展开 的 兴 代 越 多 ， 循 环 就 运 
行 得 越 快 。 当 k- oo 时 ， 一 个 完全 展开 的 循环 可 以 平均 每 两 个 时 钟 周期 
执行 一 次 近代。 但是， 我 们 展开 的 碗 代 越 多 ， 得 到 的 代码 也 越 大 。 我 们 
当然 承担 不 起 把 一 个 循环 的 全 部 迁 代 都 展开 的 代价 。 把 这 个 循环 展开 4 
次 生成 了 有 13 条 指令 的 代码 ， 执 行 时 间 是 最 优 情况 的 163%; 把 这 个 循 
环 展开 8 次 生成 了 带 有 21 条 指令 的 代码 ， 执 行 时 间 是 最 优 情况 的 13196。 








反 过 来 ， 如 果 我 们 希望 执行 时 间 只 是 最 优 情况 的 110%， 我 们 需要 把 这 
个 循环 展开 25 次 ， 这 将 产生 带 有 55 条 指令 的 代码 。 


10.5.2 ”循环 的 软件 流水 线 化 


软件 流水 线 化 提供 了 一 个 方便 的 优化 方法 ， 能 够 在 优化 资源 使 用 的 
同时 保持 代码 的 简洁 。 让 我 们 用 一 个 连续 的 例子 来 说 明 这 个 想法 。 


图 10-19 中 显示 的 是 把 例 10.12 展 开 5 次 之 后 得 到 的 代码 (我 们 

优 忽 略 了 对 寄存 器 使 用 方面 的 考虑 ) 。 第 i 行 中 显示 的 是 在 第 i 个 时 钟 

周期 发 出 的 所 有 运算 指令 ， 第 j 列 中 显示 的 是 第 次 迭代 的 全 部 运算 。 请 

注意 ， 相 对 于 各 个 迭代 的 开始 时 间 ， 每 个 迭代 都 有 同样 的 调度 方案 ， 同 

时 要 注意 每 个 迭代 都 在 前 一 个 迭代 开始 两 个 时 钟 周期 之 后 开始 。 可 见 ， 
这 个 调度 方案 满足 所 有 的 资源 和 数据 依赖 约束 。 











1 
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图 10-19 ” 例 10. 12 经 过 5 次 送 代 展开 后 得 到 的 代码 


我 们 看 到 ， 在 第 7 和 第 8 个 时 钟 周期 运行 的 运算 和 在 第 9 和 第 10 个 周 
期 运行 的 运算 是 一 样 的 。 第 7 和 第 8 个 时 钟 周期 执行 的 运算 来 自 原 程序 中 








的 前 四 个 欠 代 。 第 9 和 第 10 个 时 钟 周期 执行 的 运算 也 是 来 目 四 个 友 代 ， 

不 过 这 次 是 来 自 第 2 到 第 5 个 迭代 。 实 际 上 ， 我 们 可 以 不 停 地 执行 同样 的 
多 运算 指令 对 ， 不 断 有 一 个 最 老 的 达 代 退出 ， 又 有 一 个 新 的 达 代 加 入 ， 
直到 运行 完 所 有 的 友 代 。 


如 打假 设 这 个 循环 至 少 有 4 个 达 代 ， 那 么 这 样 的 动态 行为 可 以 用 图 
10-20 中 显示 的 代码 简洁 地 编码 。 图 中 的 每 一 行 对 应 于 一 条 机 各 指 令 。 
第 7 行 和 第 8 行 形 成 了 一 个 两 个 时 钟 周期 的 循环 。 这 个 循环 将 执行 n-3 
次 ， 其 中 n 是 原 循环 中 的 达 代 次 数 。 














图 10-20 例 10. 12 的 经 软件 流水 线 化 的 代码 


上 面 描述 的 技术 被 称 为 软件 流水 线 化 技术 ， 因 为 这 是 原本 用 于 硬件 





流水 线 调度 的 技术 在 软件 中 的 对 应 。 我 们 可 以 把 这 个 例子 中 各 个 迭代 执 
行 的 调度 方案 当 作 一 个 8 阶段 的 流水 线 。 每 两 个 时 钟 周 期 就 可 以 在 这 条 
流水 线 上 启动 一 个 新 迁 代 。 在 开始 的 时 候 ， 这 条 流水 线 中 只 有 一 个 迁 代 
在 运行 。 在 第 一 个 迭代 进行 到 第 三 阶段 的 时 候 ， 第 二 个 迭代 开始 进入 它 
的 第 一 个 执行 阶段 。 


到 第 7 个 时 钟 周 期 时 ， 流 水 线 被 前 面 四 个 迭代 充满 。 在 稳定 状态 下 
有 四 个 连续 的 迭代 同时 运行 。 每 当 流 水 线 中 最 老 的 达 代 退出 时 就 有 一 个 
新 的 达 代 被 局 动 。 当 我 们 运行 完 所 有 的 达 代 时 ， 流 水 线 开始 排 空 ， 其 中 
的 所 有 达 代 运行 结束 。 用 来 填充 流水 线 的 指令 序列 在 这 个 例子 中 是 第 











1 到 第 6 行 ) 被 称 为 序言 〈prolog) ; 第 7 和 第 8 行 被 称 为 稳定 状态 (steady 
state) ; 用 来 排 空 流水 线 的 指令 序列 《〈 即 第 9 行 到 第 14 行 ) 被 称 为 尾声 
(epilog) 。 


对 于 这 个 例子 ， 我 们 知道 这 个 循环 不 可 能 运行 得 比 每 两 个 时 钟 周 期 
一 个 迭代 更 快 。 原 因 是 目标 机 器 每 个 时 钟 周 期 只 能 发 出 一 个 读 指 令 
每 个 迭代 有 两 个 读 指 令 。 上 面 的 经 软件 流水 线 化 的 循环 在 2n+6 个 时 钟 周 
期 内 执行 完毕 ， 其 中 n 是 原 循 环 的 达 代 次 数 。 当 nw 时 ， 这 个 循环 的 通 
量 接近 每 两 个 时 钟 周期 一 次 达 代 。 因 此 ， 和 循环 展开 拉 术 不 同 ， 软 件 调 
度 可 以 用 一 个 非常 简洁 的 代码 序列 给 出 最 优 调度 方案 的 编码 。 


请 注意 ， 对 于 单个 迭代 而 言 ， 这 个 调度 方案 的 运行 时 间 并 不 是 最 短 
的 。 和 图 10 17 中 显示 的 启 部 优化 的 调度 方案 相 比 ， 这 个 方案 在 ADD 运 算 
之 前 引入 了 一 个 延 时 。 引 入 这 个 延 时 是 调度 策略 之 一 ， 其 目的 是 使 这 个 
调度 方案 可 以 在 保证 没有 资源 冲突 的 情况 下 每 两 个 时 钟 周期 启动 一 个 迭 
代 。 如 果 我 们 坚持 使 用 局 部 紧凑 的 调度 方案 ， 为 了 避免 资源 冲突 ， 各 次 
启动 之 间 的 间隔 不 得 不 延长 到 4 个 时 钟 周期 ， 而 吞吐 率 将 被 减 半 。 这 个 
例子 说 明了 流水 线 调度 的 一 个 重要 原则 : 必须 小 心 选择 调度 方案 以 便 优 
化 吞吐 量 。 虽 然 一 个 局 部 紧凑 的 调度 方案 可 以 使 完成 一 个 迭代 的 时 间 降 
到 最 低 ， 但 是 在 流水 线 化 之 后 得 到 的 吞吐 量 却 可 能 是 次 优 的 。 

















10.5.3 ”寄存 器 分 配 和 代码 生成 


我 们 首先 讨论 例 10.14 中 经 过 软件 流水 线 化 的 循环 的 寄存 器 分 配 。 


在 例 10.14 中 ， 第 一 个 迭代 中 的 乘法 运算 结果 在 第 3 个 时 钟 周 

， 在 第 6 个 时 钟 周 期 使 用 。 在 这 两 个 时 钟 周 期 之 间 ， 第 二 次 友 代 
中 的 这 个 乘法 运算 又 在 第 5 个 时 钟 周期 生成 一 个 新 的 结果 ， 这 个 值 在 第 8 
个 时 钟 周期 使 用 。 这 两 次 达 代 的 结果 必须 保存 到 不 同 的 寄存 右 中 ， 以 防 
止 它 们 之 间 互 相干 扰 。 因 为 干扰 只 会 在 两 个 相 统 的 闪 代 之 间 发 生 ， 使 用 
两 个 寄存 器 就 可 以 避免 这 种 和 干扰: 一 个 寄存 占用 于 奇数 次 达 代 ， 力 一 个 
寄存 占用 于 偶数 次 达 代 。 因 为 奇数 次 大 代 的 代码 和 偶数 次 大 代 的 代码 不 
同 ， 稳 定 状 态 循环 的 代码 大 小 是 原来 的 两 倍 。 这 个 代码 可 以 用 于 执行 任 
何 具 有 大 于 等 于 5 的 奇数 次 迭代 的 循环 。 


为 了 处 理 适 代 次 数 小 于 5 的 循环 和 具有 偶数 次 友 代 的 循环 ， 我 们 生 





成 的 代码 在 源 语言 层次 上 和 图 10-21 中 的 代码 等 价 。 第 一 个 循环 被 流水 
线 化 了 ， 它 的 机 器 语言 层次 的 等 价 表示 见 图 10-22。 图 10-21 的 第 二 个 循 
环 不 需要 优化 ， 因 为 它 最 多 迭代 4 次 。 


5) 
3+ 2 * floor((N-3)/2); 


0; 

0; i < N2; i++) 

= Ari]* B[i] + c; 
N2; i < N; i++) 

= Slijw BLi] $ 全 





图 10-21 例 10.12 中 循环 在 源 语言 层次 上 的 展开 


R5,0(R1++) 

R6 ,0(R2++) 

R5,0(R1++) R7,R5,R6 

R6 ,0(CR2++) 

R5,0(R1++) R9 ,R5 ,R6 

R6 ,0(R2++) R8 ,R7 ,R4 

R5 ,0(R1++) R7 ,R5 ,R6 

R6 ,0(R2++) R8 ,R9,R4 ST 0(R3++) ,R8 


R5 ,0(R1++) R9 ,R5 ,R6 

R6 ,0(R2++) R8,R7,R4 ST 0(R3++) ,R8 BL R10,L 
R7 ,R5 ,R6 
R8,R9,R4 ST 0(R3++) ,R8 


Sw a 


R8,R7,R4 ST 0(R3++) ,R8 


ST 0(R3++) ,R8 





图 10-22 在 例 10. 15 中 经 过 软件 流水 线 化 和 寄存 器 分 配 之 后 得 到 的 代码 
2 
10.5.4 Do-Across 循 环 


软件 流水 线 化 技术 也 可 以 用 于 各 个 欠 代 之 间 存 在 数据 依赖 关系 的 循 
环 。 这 样 的 循环 被 称 为 do-across 循 环 。 


人 


for (i = 0: i < n; i++) { 
sum = sum + A[i]; 
BE] 芝 直 人 下 

上 


的 两 个 连续 迭代 之 间 有 具有 数据 依赖 关系 ， 因 为 前 一 次 的 sum 值 和 A [ij 

相 加 得 到 新 的 sum 值 。 如 果 目 标 机 器 可 以 提供 足够 的 并 行 性 ， 这 个 求 和 
运算 可 以 在 O 〈logn) 时 间 内 完成 。 但 是 为 了 本 次 讨论 ， 我 们 假设 必须 
遵守 所 有 的 顺序 依赖 关系 ， 上 面 的 加 法 必须 以 原来 的 顺序 完成 。 因 为 我 
们 假设 的 机 器 模型 需要 两 个 时 钟 周期 才能 完成 一 个 ADD 运算 ， 所 以 循环 
的 运行 不 可 能 快 过 每 两 个 时 钟 周期 一 个 达 代 。 给 该 机 占 增 加 更 多 的 加 法 
器 和 乘法 器 都 不 会 使 循环 运行 得 更 快 。 像 这 样 的 do-across 循 环 的 吞吐 量 
受 达 代 之 间 的 依赖 链 的 限制 。 


图 10-23a 显 示 了 每 个 达 代 的 最 好 的 局 部 紧 竣 的 调度 方案 ， 经 过 软件 
流水 线 化 处 理 的 代码 在 图 10-23b 中 显示 。 这 个 软件 流水 线 化 的 循环 每 两 
个 时 钟 局 动 一 次 达 代 ， 因 此 运行 的 速度 是 最 优 的 。 




















// R1 = &A; R2 = &B 
= 一 一 一 一 一 一 =、 // R3 = sum 
// Ri = &A; R2 = &B // R4 =b 
// R3 = sum // R10 = n-2 
//R4=b 
// R10 = n-1 LD R5, O(R1++) 
MUL R6, R5, R4 
L: LD R5, 0(R1++) L: ADD R3, R3, R4 LD R5, O(R1++) 
MUL R6, R5, R4 ST R6, 0(R2++) MUL R6, R5, R4 BL R10, L 
ADD R3, R3, R4 ADD R3, R3, R4 
ST R6, 0(R2++) BL R10, L ST R6, 0(R2++) 
a) 最 好 的 局 部 紧凑 的 调度 方案 b) 调度 方案 的 软件 流水 线 化 版 本 


图 10-23 ”一 个 do-across 循 环 的 软件 流水 线 化 


10.5.5 ”软件 流水 线 化 的 目标 和 约束 


软件 流水 线 化 的 主要 目标 是 使 一 个 长 时 间 运 行 的 循环 的 吞吐 量 最 
大 ， 次 要 目标 之 一 是 使 生成 代码 保持 合理 的 大 小 。 换 句 话说 ， 经 过 软件 
流水 线 化 的 循环 应 该 有 一 个 较 小 的 流水 线 稳定 状态 。 我 们 可 以 要 求 每 个 








途 代 的 相对 调度 方案 相同 ， 并 要 求 各 个 迭代 局 动 的 时 间 间 隔 相 同 ， 从 而 
得 到 一 个 较 小 的 稳定 状态 。 因 为 循环 的 吞吐 量 是 启动 间隔 的 倒数 ， 所 以 
软件 流水 线 化 的 目标 是 使 这 个 间隔 最 小 化 。 


一 个 数据 依赖 图 G= (CNE) 的 软件 流水 线 调 度 方案 可 以 描述 为 
1) 一 个 局 动 间 隅 TT。 


2) 一 个 相对 调度 方案 5。 对 每 个 运算 ， 它 给 定 了 该 运算 相对 于 它 所 
处 迭代 的 开始 时 刻 的 执行 时 间 。 


因此 ， 如 宋 从 0 开始 计算 时 钟 周期 的 话 ， 第 i 个 迭代 的 一 个 运算 n 将 
会 在 第 ixT+S (n) 个 时 钟 周期 上 运行 。 和 所 有 其 他 的 调度 问题 一 样 ， 软 
和 
种 约束 。 


模 数 资源 预约 


令 一 个 机 器 的 资源 表示 为 R= [rj,r>,...]」， 其 中 rt 表示 第 种 资源 的 可 
用 数目 。 如 果 一 个 循环 的 单 次 迭代 需要 ni 个 单元 的 第 i 种 资源 ， 那 么 一 条 
流水 线 化 的 循环 的 平均 启动 间隔 至 少 是 maxi (nyr;) 个 时 钟 周期 。 软 件 
流水 线 化 要 求 在 任何 一 对 相 邻 迭代 之 间 的 启动 间隔 是 一 个 常量 值 。 因 
此 ， 它 的 启动 间隔 至 少 是 max; [ni 个 时 钟 周 期 。 如 果 maxi Cn ) 小 
于 1， 那 么 把 源 代 码 少量 展开 几 次 就 有 助 于 提高 代码 效率 。 


让 我 们 回 到 图 10-20 所 示 的 经 过 软件 流水 线 化 处 理 的 循环 。 回 
娲 一个， 目标 机 器 可 以 在 每 个 时 钟 周期 内 发 出 一 个 加 载 指 令 、 一 个 算术 
运算 指令 、 一 个 保存 指令 和 一 个 循环 回归 分 文 指令 。 因 为 这 个 循环 有 两 
个 加 载运 算 、 两 个 算术 运算 和 一 个 保存 运算 ， 所 以 根据 资源 约束 ， 这 个 
循环 的 最 小 启动 间隔 是 2 个 时 钟 周 期 。 


图 10-24 显 示 了 四 个 连续 迭 代 在 不 同时 刻 的 资源 需求 。 随 着 被 启动 
和 欠 代 数量 的 增加 ， 所 需 的 资源 也 越 来 越 多 ， 最 终 达 到 稳定 状态 下 的 最 大 
资源 需求 。 令 RT 为 表示 单个 迭代 所 需 资源 的 资源 预约 表 ， 并 令 RTs 表 示 
循环 的 稳定 状态 所 需要 的 资源 。RTes 把 每 隔 T 个 时 钟 周 期 启动 的 四 个 相 
邻 迭代 所 需 的 资源 组 合 起 来 。RTs 表 的 第 0 行 所 需 的 资源 是 RT [0] 、 
RT [2] 、RT [4」 和 RT [6j」 所 需 资 源 的 总 和 。 类 似 地 ， 表 中 第 1 行 所 
































需 资源 对 应 于 RT [1] 、RT [3] 、RT [5] 和 RT [7] 所 需 资源 的 总 
和 。 也 就 是 说 ， 稳 定 状态 下 第 i 行 所 需 资源 可 以 由 下 面 的 公式 给 出 : 





迁 代 1 
Ld AluSt 

近代 2 
Ld AluSt 

逃 代 3 
Ld AluSt 

人 迄 代 4 Steady state 
Ld AluSt Ld AluSt 





时 间 


























1 
图 10-24 例 10. 13 中 的 代码 的 四 个 连续 选 代 的 资源 需求 


RTS[i] = > RTI | 


It| (t mod 2) = 了 | 


我 们 把 表示 稳定 状态 的 资源 预约 表 称 为 这 条 流水 线 化 的 循环 的 模 数 资源 


预约 表 (modular resource-reservation ) 。 


为 了 检查 软件 流水 线 调度 方案 是 否 存 在 冲突 ， 我 们 只 需要 检查 模 数 
资源 预约 表 中 指出 的 资源 需求 。 如 果 在 稳定 状态 下 的 资源 需求 可 以 被 满 
足 ， 那 么 在 序言 和 尾声 中 ， 即 在 稳定 状态 循环 之 前 和 之 后 的 代码 部 分 
中 ， 资 源 需 求 也 一 定 可 以 被 满足 。 

总 的 来 说 ， 给 定 一 个 启动 间隔 T 和 单个 迭代 的 一 个 资源 预约 表 RT， 
流水 线 化 的 调度 方案 在 一 个 资源 向 量 为 R 的 机 器 上 没有 资源 冲突 ， 当 且 
仅 当 RTs。[i <R 对 i=0,1,.….,T-1 都 成 立 。 











数据 依赖 约束 


在 软件 流水 线 化 中 的 数据 依赖 关系 和 我 们 至 今 为 止 遇 到 的 依赖 关系 
不 同 ， 因 为 它们 可 能 会 形成 环 。 一 个 运算 可 能 会 依赖 于 前 一 个 迭代 中 同 
一 个 运算 的 结果 。 现 在 仅仅 在 依赖 边 上 加 上 一 个 表示 延 时 的 标号 已 经 不 
够 了 ， 我 们 还 需要 区 分 同一 个 运算 在 不 同 迭 代 中 的 实例 。 如 果 在 第 ji 次 
欠 代 中 的 运算 mn 必须 在 第 i-8 次 欠 代 中 的 运算 ni 执行 至 少 d 个 时 钟 之 后 才 
可 以 执行 ， 那 么 我 们 给 依赖 边 n; ns; 加 上 标号 <6,d>。 令 S 是 软件 流水 线 
化 的 调度 方案 ， 它 是 一 个 从 数据 依赖 图 中 的 结 点 到 整数 的 函数 ， 并 令 T 
为 启动 时 间 间 隔 的 目标 ， 那 么 


(6xT) tS (Do ) -9 (n1) >d 

















其 中 的 达 代 距离 6 必须 是 非 灸 的。 而且 ， 给 定 一 个 由 数据 依赖 图 的 边 组 
成 的 环 ， 至 少 一 个 边 具有 正 的 达 代 距离 。 


考虑 下 面 的 循环 ， 并 假设 我 们 不 知道 p 和 q 的 值 : 


for (i ss 0; i < ns I+) 
*(p++) = *(q++) + c; 


我 们 必须 假设 任何 一 对 ” (p++) 和 ” (q++) 都 可 能 访问 同一 个 内 存 位 置 。 
因此 ， 所 有 的 读 和 写 运算 都 必须 按照 原来 的 串 行 顺序 进行 。 假 设 本 例 中 
目标 机 器 和 例 10.12 中 描述 的 机 器 有 同样 的 特性 ， 这 段 代 码 的 数据 依赖 

边 如 图 10-25 所 示 。 但 是 ， 请 注意 我 们 名 略 了 循环 控制 指令 。 本 来 应 该 

和 
站 测试 。 











3 
ST O(R2++),R5 


图 10-25 ” 例 10. 18 的 数据 依赖 图 
如 下 例 所 示 ， 两 个 相关 运算 之 间 的 迭代 距离 可 以 大 于 1: 


for (i = 2; i < n; i++) 
A[i] = BLi] + A[i-2]; 


在 第 i 个 迭代 中 写 入 的 值 在 两 个 迭代 之 后 才 会 被 用 到 。 因 此 在 保存 
A [Lij 的 运算 和 加 载 A [i-2j] 的 依赖 边 之 间 的 欠 代 距离 是 2。 

一 个 循环 中 出 现 的 数据 依赖 环 还 对 循环 的 执行 吞吐 量 增加 了 另 一 个 
限制 。 比 如 ， 图 10-25 中 的 数据 依赖 环 限 定 了 两 个 连续 达 代 中 的 加 载运 
算 之 间 必 须 有 至少 4 个 时 钟 周 期 的 延 时 。 也 就 是 说 ， 循 环 的 执行 不 可 能 
快 过 每 4 个 时 钟 周 期 一 次 迭代 。 


一 个 被 流水 线 化 的 循环 的 启动 间隔 不 小 于 
Py i d, 
6 是 个 6 中 的 图 5 
> e 在 c 中 “ 
个 时 钟 周 期 。 


总 结 一 下 ， 每 个 被 软件 流水 线 化 的 循环 的 局 动 间 隅 受到 每 个 迭代 的 








资源 使 用 情况 限制 。 也 就 是 说 ， 对 于 每 一 类 资源 ， 局 动 间 隅 必须 不 小 于 
一 次 欠 代 所 需 该 类 资源 的 数目 除 以 机 器 上 该 类 资源 的 可 用 数量 所 得 的 
商 。 男 外 ， 如 果 循 环 中 存在 数据 依赖 坏 ， 那 么 它 的 局 动 间隔 还 必须 不 小 
于 这 个 环 中 的 延 时 总 数 除 以 环 中 迭代 距离 之 和 得 到 的 商 。 这 些 量 的 最 大 
值 定 义 了 局 动 间 隔 的 下 界 。 











10.5.6 一 个 软件 流水 线 化 算法 





软件 流水 线 化 的 目标 是 找到 一 个 具有 最 小 启动 间隔 的 调度 方案 。 这 
个 问题 是 NP 完全 的 ， 并 且 可 以 被 写成 一 个 整数 线性 规划 问题 。 我 们 已 
经 说 明 ， 如 果 知 道 最 小 的 局 动 间隔 ， 那 么 调度 算法 可 以 在 放置 各 个 运算 
时 使 用 模 数 资源 预约 表 来 避免 资源 冲突 。 但 是 只 有 当 我 们 找到 一 个 调度 
方案 之 后 才能 知道 最 小 局 动 间隔 是 什么 。 我 们 怎样 才能 解 开 这 样 的 循环 


有? 





我 们 可 以 按照 上 面 讨论 的 方法 根据 循环 的 资源 需求 和 依赖 环 计算 得 
到 局 动 间 隅 的 下 界 。 我 们 已 知 局 动 间隔 必须 大 于 这 个 下 界 。 如 果 我 们 可 
以 找到 一 个 调度 方案 使 得 月 动 间 隔 就 是 这 个 下 界 ， 那 么 就 找到 了 最 优 的 
调度 方案 。 如 果 我 们 找 不 到 这 样 的 调度 方案 ， 可 以 再 使 用 大 一 点 的 局 动 
间隔 进行 葵 试 ， 直 到 找到 一 个 符合 要 求 的 调度 方案 为 止 。 请 注意 ， 如 果 
A 0 
调度 方案 。 


我 们 能 个 找 到 接近 下 界 的 调度 方案 依赖 于 相应 数据 依赖 图 的 性 质 以 
及 目标 机 的 体系 结构 。 如 果 依 赖 图 是 无 环 的 ， 并 且 每 条 机 器 指令 只 需要 
个 单元 的 茶 种 资源 ， 那 么 我 们 可 以 很 容易 地 找到 最 优 的 调度 方案 。 如 
果 可 用 的 硬件 资源 超过 了 有 环 的 依赖 图 所 需要 的 资源 ， 那 么 也 很 容易 找 
到 启动 间隔 接近 于 下 界 的 调度 方案 。 对 于 这 些 情况 ， 建 议 一 开始 就 把 下 
界 作 为 初始 的 局 动 间隔 目标 ， 然 后 逐渐 把 目标 增加 一 个 时 钟 周 期 ， 并 且 
每 增加 一 次 进行 一 次 调度 尝试 。 男 一 种 可 能 性 是 使 用 二 分 搜索 法 来 寻找 
局 动 间 隅 。 我 们 可 以 把 列表 调度 法 为 单 次 碗 代 生 成 的 调度 方 双 的 长 度 作 
为 局 动 间隔 的 上 界 。 























10.5.7 ”对 无 环 数据 依赖 图 进行 调度 


为 简单 起 见 ， 我 们 现在 假设 即将 进行 软件 流水 线 化 处 理 的 循环 只 包 
含 一 个 基本 块 。 在 10.5.11 节 中 将 放宽 这 个 假设 条 件 。 


对 一 个 无 环 依赖 图 进行 软件 流水 线 化 处 理 。 


给 入: 一 个 机 器 资源 向 量 R= [rr,.….] ， 其 中 表示 第 种 资源 的 可 
用 单元 数量 ， 一 个 数据 依赖 图 G= (N,E)〉。N 中 的 每 个 运算 n 用 它 的 资源 
预约 表 RT, 作 为 标号 ; 中 的 每 条 边 e=n1 ,ns 上 有 标号 <8。du>。 这 个 标号 
表示 m 只 能 在 往 前 第 .个 迭代 中 的 结 点 mi 执行 d. 个 时 钟 周期 之 后 才 可 以 
执行 。 

给 出， 一 个 经 过 软件 流水 线 化 的 调度 方案 S 和 一 个 启动 间隔 T。 

方法 ， 执 行 图 10-26 中 的 程序 。 





main() { 


? 


Tj 


To 一 Max | 


j 
for (T = To,To 十 1,.. , 直到 N 中 的 所 有 结 点 都 已 经 被 调度 完毕 ) { 
RT = 一 个 具有 工行 的 空 的 资源 预约 表 ; 
for (按照 带 优先 级 的 拓扑 顺 序 访 问 N 中 的 每 个 结 点 7 ) { 
50 二 IDaX 中 的 边 emp >n(S(p) 十 de); 
for (s= s0,s0+1,...,S0+T—1) 
if (NodeScheduled( RT, T,n,s) break; 
计 ( nn 无 法 在 RT 中 调度 ) break; 


NodeScheduled(RT,T,n,s) { 
RT’ = RT; 
for (在 RT 中 的 每 一 行 i ) 
RT'[(s +i) mod T] = RT'[(s +i) mod T] + RT,[il]; 
站 (对 于 所 有 i, RT'(i) < R) { 
RT = RT 
S(n) = s; 
return true; 


else return false; 





图 10-26 无 环 依赖 图 的 软件 流水 线 化 算法 


算法 10.19 将 无 环 的 数据 依赖 图 进行 软件 流水 线 化 处 理 。 这 个 算法 
首先 基于 图 中 运算 的 资源 需求 找到 启动 间隔 的 界限 To。 然 后 它 尝 试 以 T。 
为 启动 间隔 的 目标 ， 寻 找 一 个 软件 流水 线 化 的 调度 方案 。 如 果 算法 不 能 
为 当前 目标 找到 一 个 调度 方案 ， 它 就 不 断 增加 启动 间隔 并 重复 尝试 。 


这 个 算法 在 每 次 尝试 中 使 用 了 一 个 列表 调度 方法 。 它 使 用 一 个 模 数 
资源 预约 表 RT 来 跟踪 流水 线 的 稳定 状态 所 要 求 的 资源 。 运 算 按照 拓扑 
顺序 进行 调度 ， 以 便 总 是 能 够 通过 推迟 运算 来 满足 数据 依赖 关系。 为 了 
调度 一 个 运算 ， 它 首先 根据 数据 依赖 约束 找到 一 个 下 界 svo。 然 后 ， 它 调 
用 NodeScheduled 来 检测 在 稳定 状态 上 可 能 发 生 的 资源 冲突 。 如 果 故 现 
了 资源 冲突 ， 该 算法 试图 把 这 个 运算 安排 在 下 一 个 时 钟 周期 。 因 为 资源 
冲突 检测 的 取 模 特性 ， 如 果 发 现 该 运算 在 连续 T 个 时 钟 周期 上 都 有 冲 
突 ， 那 么 继续 尝试 也 不 会 有 用 。 此 时 ， 这 个 算法 认为 对 当前 启动 间隔 目 
标的 尝试 已 经 失败 ， 继 续 尝试 男 一 个 启动 间隔 。 


把 各 个 运算 尽早 安排 的 局 发 式 规 则 往往 会 使 单个 迭代 的 调度 方案 的 
长 度 最 小 化 。 但 是 ， 尽 早 安排 一 条 指令 可 能 会 加 长 茶 些 变量 的 生命 期 。 
比如 ， 加 载 数据 的 运算 往往 会 被 较 早 安排 ， 有 时 候 会 在 数据 被 使 用 前 很 
早 束 执 行 。 处 理 这 个 问题 的 一 个 简单 的 局 发 规则 是 逆向 地 调度 一 个 依赖 
图 ， 理 由 是 加 载运 算 通 常 要 多 于 保存 运算 。 





























10.5.8 ”对 有 环 数 据 依赖 图 进行 调度 


依赖 环 明显 地 增加 了 软件 流水 线 化 的 复杂 性 。 当 按照 拓扑 顺序 对 一 
个 无 环 图 中 的 运算 进行 调度 时 ， 被 调度 的 运算 之 间 的 数据 依赖 关系 只 能 
给 出 每 个 运算 位 置 的 下 界 。 结 果 ， 算 法 总 是 能 够 通过 推迟 运算 来 满足 数 
据 依 赖 关 系 。 有 环 的 图 没有 “拓扑 排序 ”的 概念 。 实 际 上 ， 给 定 一 个 环 中 
的 一 对 运算 ， 放 置 一 个 运算 会 限定 第 二 个 运算 的 位 置 的 下 界 和 上 界 。 


令 n1 和 n? 是 一 个 依赖 环 中 的 两 个 运算 ，S 是 一 个 软件 流水 线 调度 方 
案 ， 而 TI 是 这 个 调度 方案 的 启动 间隔 。 一 个 市 有 标 写 <61,d1> 的 依赖 边 
nj ~Dm 对 S 《(n1) 和 S (Cn ) 加 上 了 如 下 约束 : 

















(61XT) +S (n») -S (n1) 2di 





类 似 地 ， 一 个 带 有 标号 <6,,d2> 的 依赖 边 n, ~ Di 增加 了 如 下 约束 : 
(65xT) +S (n1) -S (nz) >d» 
因此 
S (n1) +d1- (61XT) <S (ns) <S (n1) -dy+ (6,xT) 
一 个 图 的 强 连 通 分 量 (Strongly Connected Component，SCC) 是 满 
中 如 下 条 件 的 一 个 结 点 集合 ， 其 中 的 每 个 结 点 都 可 以 从 集合 中 的 所 有 其 


他 结 点 到 达 。 对 SCC 中 的 一 个 结 扣 进行 调度 将 会 从 上 下 两 个 方 加 限制 其 
他 各 个 结 点 的 可 行 时 间 。 如 果 存 在 一 个 从 ni 到 n, 的 路 径 p， 那 么 有 





S(n)) - S(ni) = (二 7) ) (10. 1 ) 


请 注意 下 面 的 情况 : 


1) 沿 着 任何 一 个 环 ， 各 个 边 上 的 6 值 的 总 和 必须 为 正 。 如 果 和 是 0 
或 者 负数 ， 就 表明 环 中 的 一 个 运算 要 么 必须 在 它 目 己 之 前 执行 ， 要 么 所 
有 和 迭代 中 的 该 运算 都 在 同一 时 钟 周期 执行 。 


2) 一 个 欠 代 中 的 各 运算 的 调度 方案 和 所 有 友 代 中 的 调度 方案 相 
同 ， 这 个 要 求实 质 上 就 是 “软件 流水 线 ” 的 含义 。 结 果 ， 一 个 环 上 的 延 时 
( 即 数 据 依赖 图 中 边 的 标号 的 第 二 个 元 系 ) 的 总 和 除 以 环 上 的 迁 代 距离 
的 总 和 所 得 的 商 束 是 局 动 间隔 T 的 一 个 下 界 。 


当 我 们 把 这 两 点 联系 起 来 ， 就 可 以 看 到 ， 如 果 p 是 一 个 环 ， 那 么 对 
于 任何 可 行 的 启动 间隔 T， 式 〈10.1) 的 右边 部 分 的 值 必然 是 负数 或 
De 那些 不 包 
含 环 的 路 径 。 


因此 ， 对 于 每 个 可 行 的 启动 间隔 T， 计 算 每 对 结 点 之 间 的 数据 依赖 
关系 的 传递 效果 就 等 同 于 寻找 从 第 一 个 络 氮 到 达 第 二 个 结 点 的 最 长 的 简 
单 路 径 。 不 仅 如 此 ， 因 为 环 不 会 增加 一 条 路 径 的 长 度 ， 所 以 可 以 用 一 个 
简单 的 动态 规划 算法 在 没有 “简单 路 径 ” 需 求 的 情况 下 来 寻找 最 长 路 径 。 
这 样 得 到 的 长 度 也 一 定 是 最 长 简单 路 径 的 长 度 〈 见 练习 10.5.7) 。 



































和 e1027 吕 示 了 有 四 个 结 点 a。、b、c、9 的 数据 依 吏 图 ， 每 个 结 
点 上 附加 了 该 结 点 的 资源 预约 表 ， 每 条 边 上 附加 了 它 的 迭代 距离 和 延 
时 。 假 设 这 个 例子 中 的 目标 机 器 的 每 一 种 资源 都 有 一 个 单元 。 因 为 对 第 
一 种 资源 有 三 处 使 用 ， 而 第 二 种 资源 有 两 处 使 用 ， 所 以 启动 间隔 必须 不 
小 于 3 个 时 钟 。 在 这 个 图 中 有 两 个 连通 分 量 : 第 一 个 是 只 包含 了 结 点 a 的 
分 量 ， 第 二 个 包含 了 结 点 0、c 和 d。 最 长 的 环 >、c、d、b 的 总 延 时 是 3 个 
时 钟 周期 。 这 个 环 把 相隔 一 个 迭代 的 结 点 连接 起 来 。 因 此 ， 根 据 数据 依 
赖 环 约束 得 到 的 启动 间隔 的 下 界 也 是 3 个 时 钟 周期 。 











图 10-27 例 10. 20 中 的 依赖 图 和 资源 需求 


对 b、<c 或 d 中 的 任何 一 个 进行 调度 都 会 对 分 量 中 的 其 他 结 点 产生 约 





束 。 令 T 为 局 动 间隔 。 图 10-28 显 示 了 传递 依赖 天 系 。 图 10-28a 显 示 了 每 
条 边 的 延 时 和 人 迭代 距离 5。 其 中 的 延 时 是 直接 表示 的 ， 而 8 则 是 通过 在 延 
时 上 “加 ”上 -6T 来 表示 的 。 





























a a 
b b 
C € 
d d 
a 
b 
d 
0) 最 长 简单 路 径 (7=3) d) 最 长 简单 路 径 (7=4) 


图 10-28 例 10. 20 中 的 传递 约束 


如 果 两 个 结 点 之 间 存 在 简单 路 径 ， 那 么 图 10-28b 中 就 显示 了 这 两 个 
结 点 之 间 的 最 长 简单 路 径 的 长 度 。 表 中 的 项 是 图 10-28a 中 给 出 的 路 径 上 
各 条 边 的 表达 式 的 和 。 然 后 ， 在 图 10-28c 和 图 10-28d 中 ， 我 们 看 到 的 表 
达 式 是 将 图 10-28b 的 表达 式 中 的 T 检 换 为 两 个 相关 值 〈( 即 3 和 4) 之 后 得 
到 的 表达 式 。 根 据 不 同 的 T 值 ， 两 个 结 点 ni 和 mn? 的 调度 时 间 位 置 之 差 
S (ns) -S (ni1) 必须 不 小 于 在 图 10-28c 或 图 10-28d 中 的 项 (ni,n,) 的 
值 。 


比如 ， 考 虑 图 10-28 中 给 出 的 表示 从 c 到 b 的 最 长 〈 简 单 ) 路 径 的 项 2- 
T。 从 c 到 b 的 最 长 简单 路 径 是 c “db。 这 条 路 径 上 的 总 延 时 是 2， 而 8 的 
和 是 1， 它 表明 迭代 编号 必须 加 1。 因 为 T 表 示 每 个 迭代 和 前 一 个 迭代 的 
时 间 差 异 ， 为 b 安 排 的 时 钟 周期 必须 至 少 是 安排 给 c 的 时 钟 周期 之 后 的 第 
2-T 个 时 钟 周 期 。 因 为 T 至 少 是 3， 我 们 实际 上 是 说 b 必 须 被 安排 在 c 之 前 
的 T-2 个 时 钟 周 期 或 再 晚 一 些 ， 但 是 不 能 更 早 了 。 


请 注意 ， 考 虑 从 c 到 b 的 非 简 单 路 径 并 不 会 产生 更 强 的 约束 。 我 们 可 
以 在 路 径 c db 上 加 上 由 d 和 b 组 成 的 环 的 任意 多 次 迭代 。 如 果 我 们 加 
上 k 个 这 样 的 环 ， 因 为 路 径 的 总 延 时 为 3， 而 环 上 的 6 的 总 和 是 1， 我 们 得 
到 的 路 径 长 度 为 2-T+k (3-T) 。 因 为 T>3， 所 以 这 个 长 度 绝 不 会 超过 2- 




















T， 即 b 的 时 钟 和 c 的 时 钟 的 兰 的 下 界 是 2-T， 也 就 是 我 们 考虑 最 长 简单 路 
径 时 得 到 的 界限 。 


比如 ， 从 项 (b,c》 和 c,d) 我 们 可 以 知道 
S Ce) (by 
S (hb) -S.C 2T, 
也 就 是 说 ， 
Sb)+1<9 (6) <A(by.2+1 
如 果 T=3， 则 
S (b) +1<S (c) <S (b) +1 
等 价 地 说 ，c 必 须 被 安 排 在 b 后 一 个 时 钟 周期 上 。 但 是 ， 如 果 T=4， 则 
S bsS te Sb 2 
也 就 是 说 ，c 可 以 被 安排 在 b 后 的 一 个 或 两 个 时 钟 周 期 上 。 
给 定 所 有 扩 对 之 间 的 最 长 路 人 径 的 信息 ， 我 们 可 以 很 容易 地 计算 出 由 
于 数据 依赖 的 原因 ， 一 个 结 点 可 以 放置 在 什么 位 置 。 我 们 看 到 ， 当 T=3 
We 点 b 的 位 置 是 没有 松弛 度 的 ， 而 当 T 增 加 的 时 候 这 个 松弛 拔 会 增 
软件 流水 线 化 。 
输入 : 一 个 机 器 资源 问 量 R= [rr,…] ， 其 中 m 表 示 第 i 种 资源 的 可 
用 单元 的 数量 ， 一 个 数据 依赖 图 G= (NE) 。N 中 的 每 个 运算 n 的 标号 为 
它 的 资源 预约 表 RT;，E 中 的 每 条 边 e=nl > n? 上 有 标号 <6sde>， 这 个 标号 


表示 n5 的 执行 时 刻 不 能 早 于 向 前 第 6 个 达 代 中 的 结 点 m1 之 后 的 de 个 时 钟 
周期 。 


输出 : 一 个 软件 流水 线 化 的 调度 方案 S 和 一 个 启动 间 隅 T。 
方法 : 执行 图 10-29 中 的 程序 。 











main() { 
E' = {ele in E,6。 = 0)}; 


a i ,j) einc 
| | age 攻 Sl. 
for (T = To,To +1,. ,或 者 直到 G 中 的 所 有 SCC 知已 经 调度 完毕 ){ 


ERT = 一 个 下 行 的 空 资源 预约 表 ; 
= AllPairsLongestPath(G, TT); 
for ( 以 带 优 先 级 的 拓扑 顺 序 遍历 G 中 的 每 个 SCC C) { 
for (对 C 中 的 各 个 n) 
so(n) = NadXe~p—on in E*,p scheduled (S(p) 本 de); 
first = 某 个 使 得 so(n) 取 最 小 值 的 n; 
50 = so(first); 
for (s= s0;s <so+T;s=s+1) 
if (SccScheduled (RT,T,C, first, s)) break:; 
if ( C 不 能 在 RT 中 调度 ) break; 


To = max (mg 
了 


} 
} 
j 
SccScheduled(RT, T, c, first, s) { 
RY' RT: 
if (not NodeScheduled (RT',T, first, s)) return false; 
for (按照 B' 中 各 条 边 的 带 优先 级 的 拓扑 排序 
访问 c 中 余下 的 每 个 nn ) { 
$1 三 MaXe=n'on in EB*,n’' in cm schiedaled (Sri) 十 de 一 (0。 x 了 ) ); 
Su = Inine=mn 一 mr in E* Nn’ in cn’ eheduled (9 (7 ) 一 de 十 (0e x 7)); 
for (s = 3/1;s< min (sw, 51 十 人 一 Ts=s5 十 1) 
让 ( Vode5Scheduled(RT',T,m,s)) break:; 
if ( 7 不 能 够 在 RT 中 调度 ) return false; 
} 
RT 二 RE 
return true; 
} 








图 10-29 ”一 个 针对 有 环 依赖 图 的 软件 流水 线 化 算法 


算法 10.21 在 高 层 结 构 上 和 只 能 处 理 无 环 图 的 算法 10.19 类 似 。 在 本 
算法 处 理 的 情况 中 ， 最小 的 启动 间隔 不 仅 受 到 资源 需求 的 限制 ， 也 受到 
图 中 数据 依赖 环 的 限制 。 整个 图 是 按照 每 次 处 理 一 个 强 连通 分 量 的 方式 
进行 调度 的 。 通 过 把 每 个 强 连通 分 量 当 作 一 个 单元 ， 在 强 连 通 分 量 之 间 
的 边 必然 形成 一 个 无 环 图 。 工法 10.19 的 顶层 循环 按照 拓扑 顺 序 来 调度 
BG i 
量 。 和 前 面 一 样 ， 如 果 算 法 不 能 调度 所 有 的 分 那么 它 就 会 尝试 较 大 
和 





算法 10.19 的 做 法 是 完全 一 样 的 。 


算法 10.21 要 计算 得 到 额外 两 个 边 集 : E' 是 所 有 的 达 代 距离 为 0 的 
边 ， 而 E 是 所 有 点 对 之 间 的 最 长 路 径 边 集 。 也 就 是 说 ， 对 每 个 结 点 对 
pn) ， 只 要 有 一 条 从 p 到 n 的 路 径 ， 在 E 中 就 有 一 条 边 e， 该 边 所 关联 
的 长 度 de 是 从 p 到 n 的 最 长 简单 路 径 的 长 度 。 对 于 局 动 间隔 目标 I 的 每 一 
个 取 值 都 需要 计算 相应 的 E 。 也 可 以 像 我 们 在 练习 10.20 中 所 做 的 那 
样 ， 先 使 用 I 的 符号 化 值 一 次 性 完成 这 个 计算 过 程 ， 然 后 在 每 一 次 迭 代 
的 时 候 把 T 谷 换 为 实际 的 局 动 问 隅 的 值 。 


算法 10.21 使 用 了 回 滴 。 如 果 它 不 能 完成 一 个 SCC 的 调度 ， 它 束 会 延 
后 一 个 时 钟 周期 再 次 对 整个 SCC 进 行 调度 。 这 些 调度 尝试 会 持续 T 个 时 
钟 周期 。 回 漳 是 很 重要 的 ， 因 为 如 例 10.20 所 示 ， 对 于 一 个 SCC 中 的 第 一 
个 结 点 的 调度 安排 可 能 会 完全 地 决定 所 有 其 他 结 点 的 调度 安排 。 如 果 这 
0 那么 这 次 尝试 就 失败 














在 对 一 个 SCC 进 行 调度 时 ， 对 该 分 量 中 的 每 个 结 点 ， 此 算法 确定 了 
满足 E 中 的 传递 数据 依赖 关系 的 最 早 可 调度 的 时 间 。 然 后 ， 算 法 选择 具 
有 最 早 开 始 时 间 的 结 点 作为 第 一 个 被 调度 的 结 点 。 然 后 ， 此 算法 调用 
SccScheduled， 试 图 根据 这 个 最 早 开始 时 间 实 际 调度 这 个 分 量 。 如 果 洽 
试 失败 ， 此 算法 将 逐次 增 大 开始 时 间 ， 不 断 和 党 试 。 访 算法 最 多 做 T 次 党 
试 。 如 果 T 次 党 试 失败 了 ， 该 算法 就 会 答 试 另 一 个 局 动 间隔 。 


算法 SccScheduled 和 算法 10.19 类 似 ， 但 是 有 三 大 不 同 之 处 : 


1) SccScheduled 的 目标 是 对 输入 的 强 连 通 分 量 在 给 定时 间 位 置 s 上 
进行 调度 。 如 果 该 强 连通 分 量 的 第 一 个 结 点 不 能 被 安排 在 s 上 ， 
SccScheduled 就 返回 false。 在 需要 时 ， 主 函数 main 可 以 使 用 一 个 较 晚 的 
时 间 位 置 再 次 调用 SccScheduled。 


2) 在 强 连通 分 量 中 的 结 点 按照 E’? 中 的 边 集 所 确定 的 拓扑 顺序 进行 
调度 。 因 为 E’ 中 的 所 有 边 的 兴 代 距离 都 是 9， 这些 边 不 会 穿越 任何 达 代 
边界 ， 也 束 不 会 形成 环 〈 穿 越 碗 代 边 界 的 边 被 称 为 穿越 循环 的 ) 。 只 有 
穿越 循环 的 依赖 会 设置 指令 可 调度 位 置 的 上 界 。 因 此 ， 这 个 调度 顺序 以 
及 尽早 调度 安排 各 条 指令 的 策略 把 后 继 结 点 的 可 调度 范围 最 大 化 了 。 





3) 对 于 强 连 通 分 量 ， 依 赖 关 系 既 给 出 了 一 个 结 点 的 可 调度 范围 的 
下 界 ， 又 给 出 了 其 上 界 。SccScheduled 计 算 了 这 些 范围 ， 并 使 用 它们 进 
一 步 限 制 调度 尝试 。 


让 我 们 把 算法 10.21 应 用 到 例 10.20 中 的 有 环 的 数据 依赖 图 上 。 
计算 出 这 个 例子 的 启动 间隔 的 下 界 是 3 个 时 钟 周期 。 注 意 ， 这 
个 下 界 不 可 能 达到 。 当 启动 间隔 T 是 3 时 ， 图 10- 28 中 的 传递 优 有 关系 决 
定 了 S (d) -S (b) =2。 把 结 点 b 和 d 安 排 在 间隔 两 个 时 钟 的 位 置 会 在 长 
度 为 3 的 模 数 资源 预约 表 中 产生 一 个 冲突 。 


图 10-30 说 明了 算法 10.21 是 如 何 处 理 这 个 例子 的 。 它 首先 试图 找到 
一 个 局 动 间 隅 为 3 个 时 钟 周期 的 调度 方案 。 这 次 尝试 开始 时 ， 算 法 尽 可 
能 早 地 调度 结 点 a 和 b。 但 是 ， 一 旦 绽 太 b 修 安排 在 第 一 个 时 钟 周 期 ， 结 
点 < 就 只 能 安排 在 第 3 个 时 钟 周期。 这 和 结 反 a 的 资源 使 用 相 冲 突 。 也 就 
是 说 ，a 和 c 在 外 # 够 被 3 整除 的 时 钟 周期 上 都 需要 第 -种 资源 。 
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图 10-30 算法 10. 21 在 处 理 例 10. 20 时 的 行为 


这 个 算法 执行 回溯 ， 试 图 延 后 一 个 时 钟 周期 再 对 强 连 通 分 量 {b,cd} 
进行 调度 。 这 一 次 结 点 b 被 安排 在 第 三 个 时 钟 周期 上 ， 而 结 点 c 可 以 被 成 
功 地 安排 在 第 4 个 时 钟 周 期 上 。 但 是 ， 结 点 d 不 能 被 安排 在 第 5 个 时 钟 周 
期 上 。 也 就 是 说 ， 在 能 够 被 3 整除 的 时 钟 周 期 上 ，b 和 d 都 需要 第 二 种 资 
源 。 请 注意 ， 虽 然 至 今 为 止 找 到 的 两 个 冲突 都 发 生 在 除 以 3 的 余数 都 是 0 
的 时 钟 位 置 上 ， 但 是 这 只 是 一 个 巧合 ; 在 其 他 的 例子 中 ， 冲 突 可 能 在 余 
数 为 1 或 2 的 时 钟 周期 上 发 生 。 


算法 再 次 延 后 一 个 时 钟 周期 尝试 对 强 连通 分 量 {b,c,d} 进 行 调度 。 但 
是 ， 前 面 讨论 过 ， 当 启动 间 阳 是 3 个 时 钟 周 期 时 ， 这 个 强 连 通 分 量 实际 
上 永远 不 可 能 被 成 功 地 调度 ， 因 此 这 次 答 试 一 定 会 失败 。 此 时 ， 这 个 算 
法 放弃 尝试 ， 并 试图 找到 一 个 局 动 间隔 为 4 个 时 钟 的 调度 方 采 。 这 个 算 


法 最 终 在 第 6 次 尝试 时 找到 了 最 优 调度 方案 。 
10.5.9 ”对 流水 线 化 算法 的 改进 


算法 10.21 是 一 个 相当 简单 的 算法 ， 尽 管 人 们 发 现 它 能 够 在 实际 的 
目标 机 器 上 很 好 地 完成 任务 。 这 个 算法 中 的 要 素 包 括 : 


1) 使 用 一 个 模 数 资源 预约 表 来 检查 稳定 状态 下 的 资源 冲突 。 


2) 需要 计算 传递 依赖 关系 ， 以 便 在 出 现 依赖 环 的 时 候 找到 各 个 结 
点 可 以 被 调度 的 合法 范围 。 


3) 回溯 是 有 用 的 ， 而 关键 环 《〈 即 给 出 了 局 动 间隔 T 的 最 高 下 界 的 
Cn 
弛 度 的 。 


有 很 多 种 方法 可 以 改进 算法 10.21。 比 如 ， 这 个 算法 花 了 一 段 时 间 
才 发 现 对 于 简单 的 例子 10.22 来 说， 采用 3 个 时 钟 的 局 动 间隔 是 不 可 行 
的 。 我 们 可 以 首先 对 各 个 强 连 通 分 量 进行 独立 调度 ， 确 定 当前 的 局 动 间 


隔 对 于 各 个 分 量 是 否 可 行 。 


我 们 也 可 以 改变 结 点 被 调度 的 顺序 。 算 法 10.21 中 使 用 的 顺序 有 一 
些 不 利之 处 。 第 一 ， 因 为 非 平 凡 的 SCC 难 以 调度 ， 所 以 首先 对 它们 进行 
调度 是 较 好 的 选择 。 第 二 ， 有 些 寄 存 器 的 生命 期 可 能 不 需要 那么 长 。 因 
此 期 望 能 够 使 定 值 位 置 靠近 使 用 位 置 。 可 行 方法 之 一 是 首先 调度 带 有 关 
键 环 的 强 连通 分 量 ， 然 后 同 两 庙 扩 展 调度 方案 。 
































10.5.10” 模 数 变 量 扩展 


如 果 一 个 标量 变量 的 活跃 范围 处 于 循环 的 一 个 迭代 之 内 ， 那 么 该 标 
量变 量 被 称 为 可 私有 化 的 〈privatizable) 。 换 句 话 说， 一 个 可 私有 化 变 
量 不 能 在 任何 迭代 的 入 口 或 者 出 口 处 活跃 。 这 些 变量 会 这 样 命 名 的 原因 
是 执行 一 个 循环 中 的 不 同 迭 代 的 各 个 处 理 器 可 以 拥有 这 些 变量 的 私有 找 
贝 ， 使 得 它们 不 会 互相 干扰 。 


变量 扩展 (variable expansion) 指 的 是 这 样 一 种 变换 技术 : 它 把 一 
个 可 私有 化 的 标量 变量 转换 成 为 一 个 数组 ， 并 让 循环 的 第 i 个 迭代 读 写 
第 i 个 元 素 。 这 个 转换 消除 了 一 个 欠 代 中 的 读 运 算 和 后 一 个 欠 代 中 的 写 
运算 之 间 的 反 依 赖 关 系 ， 以 及 不 同 迭 代 的 写 运算 之 间 的 输出 依赖 关系 。 
如 果 所 有 的 罕 越 循环 的 依赖 关系 都 可 以 被 消除 ， 那 么 循环 的 各 个 欠 代 天 
可 以 并 行 执行 。 


消除 穿越 循环 的 依赖 关系 也 就 消除 了 数据 依赖 图 中 的 环 ， 这 样 可 以 
大 大 提高 软件 流水 线 化 的 效率 。 如 例 10.15 所 示 ， 我 们 不 需要 根据 循环 
的 友 代 次 数 来 完全 扩展 可 私有 化 变量 。 同 一 时 间 内 只 能 执行 少量 的 友 
代 ， 而 在 同一 时 刻 私 有 变量 在 其 中 活跃 的 迭代 数量 更 少 。 因 此 ， 同 一 个 
内 存 位 置 可 用 于 存放 其 生命 周期 不 交 芋 的 多 个 变量 的 值 。 更 明确 地 讲 ， 
如 果 一 个 寄存 器 的 生命 周期 是 ] 个 时 钟 ， 且 局 动 间隔 是 T， 那 么 在 一 个 时 
间 点 上 只 有 ，* = | 不 | 个 值 是 活路 的。 我们 可 以 为 该 变量 分 配 q 个 寄存 器 ， 
而 第 个 迭代 中 的 变量 使 用 第 (i mod q) 个 寄存 器 。 我 们 把 这 种 转换 称 
为 模 数 变量 扩展 (modular variable expansion ) 。 











存在 不 同 于 局 发 式 的 方法 吗 ? 


我 们 可 以 把 同时 寻找 最 优 软 件 流水 线 调 度 方案 和 寄存 器 分 配方 案 
的 问题 写成 一 个 整数 线性 规划 问题 。 虽 然 很 多 整数 线性 规划 问题 可 以 
很 快 地 得 出 解 ， 但 有 些 问题 需要 特别 长 的 时 间 。 在 编译 器 中 使 用 一 个 
求解 整数 线性 规划 问题 的 程序 时 ， 我 们 必须 能 够 在 它 无 法 在 东 个 预 设 
时 间 内 完成 解答 时 退出 求解 过 程 。 


这 个 方法 曾经 在 一 个 目标 机 器 上 〈SGIR8000) 实验 性 地 尝试 
过 ， 结 果 发 现 规划 求解 器 可 以 在 一 个 合理 的 时 间 内 为 大 部 分 试验 程序 
找到 最 优 解决 方案 。 我 们 发 现 ， 用 启发 式 方法 得 到 的 调度 方案 和 最 优 
解 相当 接近 。 这 个 结果 说 明 ， 至 少 对 于 那个 目标 机 器 ， 使 用 整数 线性 
规划 方法 是 没有 什么 意义 的 。 从 一 个 软件 工程 师 的 角度 来 看 尤其 如 
此 。 因 为 整数 线性 规划 求解 程序 可 能 不 会 按时 结束 ， 在 编译 器 中 实现 
某 种 启发 式 调度 程序 仍然 是 必要 的 。 一 旦 有 了 一 个 这 样 的 启发 式 调 度 
器 ， 也 就 不 需要 再 去 实现 一 个 基于 整数 规划 技术 的 调度 器 了 。 


























EE 术 (8 使 用 模 数 变量 扩展 技术 的 软件 流水 线 化 。 
输入 : 一 个 数据 依赖 图 和 一 个 机 器 资源 描述 
输出 :两 个 循环 ， 一 个 经 过 软件 流水 线 化 处 理 ， 另 一 个 没有 。 
方法 : 


1) 从 输入 的 数据 依赖 图 中 删除 和 可 私有 化 变量 相关 的 穿越 循环 的 
肥 依赖 天 系 和 输出 依赖 关系 。 


2) 使 用 算法 10.21 对 第 一 步 得 到 的 数据 依赖 图 进行 软件 流水 线 化 。 
ee L 是 一 个 达 代 的 调度 方案 的 


3) 对 于 每 个 可 私有 化 变量 v， 依 据 得 到 的 调度 方案 计算 qv， 即 v 所 
需要 的 最 小 寄存 器 数目 。 令 Q=maxvqv。 


4) 生成 两 个 循环 : 一 个 经 过 软件 流水 线 化 的 循环 和 一 个 没有 被 流 
水 线 化 的 循环 。 被 软件 流水 线 化 的 循环 有 


外 


个 欠 代 的 找 贝 ， 各 个 揽 贝 之 间 相 距 I 个 时 钟 。 它 有 一 个 带 有 


(ede 

















条 令 的 序言 部 分 ， 一 个 带 有 QT 条 指令 的 稳定 状态 和 一 个 具有 L-T 条 指 
人 的 尾声 部 分 。 插 入 一 个 从 稳定 状态 的 尾部 到 稳定 状态 顶端 省 的 循环 回归 
香 今 。 





分 配给 可 私有 化 变量 v 的 寄存 器 数目 是 


人 如 采 Qmodg, =0 
dv = 
JW 否则 
在 第 i 个 从 代 中 的 变量 v 使 用 的 是 被 分 配给 Vv 的 第 (i mod 9;) 个 寄存 器 。 


令 D 为 源 代 码 循环 中 表示 运 代 数目 的 变量 。 这 个 软件 流水 线 化 的 循 
环 被 执行 的 前 提 是 


循环 回归 分 支 的 执行 次 数 是 
. 
-| 蕊 |+1 
y 到 上 
W 


因此 ， 软 件 流水 线 化 的 循环 所 执行 的 源 代 码 中 的 迭代 的 次 数 是 


[we mn > [|+ 0 
0 否则 
未 被 流水 线 化 的 循环 执行 的 迭代 数目 是 ns=n-ny。 


在 图 10-22 中 经 过 软件 流水 线 化 的 循环 中 ，L=8，T=2 且 Q=2。 
这 个 软件 流水 线 化 的 循环 有 7 个 迭代 的 拷贝 ， 其 中 的 序言 、 稳 定 状 态 和 
尾声 部 分 分 别 有 6、4、6 条 指令 。 令 n 为 源 代码 循环 中 的 迭代 次 数 。 这 个 
软件 流水 线 化 的 循环 在 nz5 的 时 候 被 执行 ， 在 这 种 情况 下 循环 回归 分 支 


被 执行 





bs 


次 ， 且 软件 流水 线 化 的 循环 负责 执行 


3 +2 | a " 
个 源 代码 循环 中 的 欠 代 。 


模 数 扩展 会 把 稳定 阶段 代码 的 大 小 增加 到 Q 倍 。 虽 然 如 此 ， 由 算法 
10.23 生 成 的 代码 仍然 是 相当 精简 的 。 在 最 坏 情况 下 ， 经 过 软件 流水 线 
化 的 循环 的 指令 数目 古 单个 达 代 的 调度 方案 中 指令 数目 的 三 倍 。 粗 略 地 
讲 ， 把 用 来 处 理 零星 迭代 的 额外 循环 加 在 一 起 ， 整 个 代码 的 大 小 大 约 是 
原 代码 大 小 的 四 倍 。 这 个 技术 通常 应 用 于 紧凑 的 内 层 循 环 ， 因 此 这 样 的 
代码 增加 量 是 可 接受 的 。 


算法 10.23 可 以 使 用 更 多 的 寄存 器 来 使 代码 的 扩展 量 降 到 最 低 。 我 
们 可 以 通过 生成 更 多 的 代码 来 降低 对 寄存 圳 的 使 用 。 如 果 我 们 使 用 一 个 


~、 








TxLCM,qg, 


条 指令 的 稳定 状态 ， 我 们 最 少 可 以 为 每 个 变量 v 使 用 qv 个 寄存 器 。 这 
里 ，LCM, 是 求解 所 有 gq, 的 最 小 公 倍 数 〈 即 能 够 被 所 有 gq, 整除 的 最 小 整 
数 ) 的 函数 ，v 的 取 值 范围 是 所 有 的 可 私有 化 变量 。 遗 憾 的 是 ， 即 使 对 
少量 很 小 的 qv 值 ， 最 小 公 倍 数 也 可 能 变 得 相当 大 。 





10.5.11 条 件 语句 


如 果 可 以 使 用 带 断 言 的 指令 ， 我 们 可 以 把 控制 依赖 的 指令 转换 成 为 
带 断 言 的 指令 。 带 断言 的 指令 可 以 和 其 他 指令 一 样 进行 软件 流水 线 化 处 
理 。 但 是 ， 如 果 在 循环 体内 有 很 多 依赖 于 数据 的 控制 流 ， 那 么 就 更 加 适 
合 使 用 10.4 节 中 的 算法 进行 调度 。 


如 果 一 个 机 器 没有 融 断 言 的 指令 ， 那 么 可 以 使 用 下 面 描述 的 层次 结 
构 归 约 (hierarchical reduction ) 技术 来 处 理 少 量 的 依赖 于 数据 的 控制 
流 。 和 算法 10.11 类 似 ， 在 层次 结构 归 约 中 ， 对 一 个 循环 控制 结构 的 调 
度 是 从 骨 套 在 最 内 层 的 结构 开始 ， 以 从 内 到 外 的 顺序 进行 调度 的 。 当 每 
个 结构 被 调度 时 ， 整 个 结构 被 归 约 为 一 个 结 点 。 这 个 结 点 代表 了 它 的 所 
有 组 成 部 分 和 程序 的 其 他 部 分 之 间 的 调度 约束 。 然 后 ， 这 个 结 点 可 以 当 
作 它 外 围 的 控制 结构 中 的 单个 结 点 进行 调度 。 当 整个 程序 被 归 约 为 单个 
结 点 的 时 候 ， 调 度 过 程 就 结束 了 。 


当 处 理 一 个 之 有 “then” 分 文 和 “else” 分 支 的 条 件 语句 时 ， 我 们 首先 独 
立地 对 各 个 分 文 进 行 调 度 。 然 后 : 


P00 








2) 它 的 资源 使 用 情况 是 各 个 分 支 所 用 资源 的 最 大 值 。 


3) 它 的 先后 次 序 约束 是 各 个 分 文中 此 类 约束 的 并 集 。 通 过 假设 两 
个 分 文 都 被 执行 束 可 以 求 得 这 个 约束 集合 。 


然后 ， 这 个 结 氮 就 可 以 和 其 他 结 点 一 样 进行 调度 。 需 要 生成 分 别 对 
应 于 两 个 分 文 的 两 组 代码 。 任 何 被 安排 与 这 个 条 件 语句 并 行 执行 的 代码 
都 需要 在 这 两 个 分 文中 分 别 进行 复制 。 如 果 多 个 条 件 语句 相互 交合 ， 那 
么 对 并 行 执行 的 每 个 分 支 组 合 都 要 生成 单独 的 代码 。 





10.5.12 ”软件 流水 线 化 的 便 件 文 持 


人 们 提出 了 特殊 的 硬件 支持 机 制 来 使 软件 流水 线 代 码 的 大 小 降 到 最 
低 。 在 Itanium 体 系 结构 中 的 轮转 寄存 器 文件 (rotating register file) 就 是 
这 样 的 一 个 例子 。 轮 转 寄存 器 文件 有 一 个 基 寄 存 器 (base register) ， 可 
以 把 基 寄 存 器 中 的 内 容 加 到 代码 中 给 定 的 寄存 器 编号 来 得 到 实际 被 访问 
的 寄存 器 。 我 们 只 需要 在 每 个 迭代 的 边界 上 改变 基 寄 存 器 中 的 内 容 ， 就 
可 以 让 一 个 循环 中 的 不 同 迭 代 使 用 不 同 的 寄存 器 。Itanium 体 系 结构 也 文 
持 广泛 的 带 断 言 指令 。 上 断言 不 仅 可 以 把 控制 依赖 转换 成 数据 依赖 ， 它 也 
可 以 用 来 避免 生成 序言 代码 和 尾声 代码 。 一 个 软件 流水 线 化 的 循环 体 中 
包含 了 所 有 在 序言 和 尾声 中 的 指令 。 我 们 只 需要 为 稳定 状态 生成 代码 ， 

















并 适当 地 使 用 断言 来 抑制 多 余 的 运算 ， 使 得 代码 的 运行 效果 就 像 是 存在 
一 个 序言 和 一 个 尾声 。 


虽然 Itanium 的 硬件 支持 机 制 提高 了 经 软件 流水 线 化 的 代码 的 密度 ， 
我 们 必须 知道 这 种 支持 机 制 可 不 便宜 。 因 为 软件 流水 线 化 拉 术 主要 用 于 
最 内 层 循 环 ， 被 流水 线 化 处 理 的 循环 往往 很 小 。 原 则 上 ， 对 于 那些 预期 
会 用 于 执行 很 多 软件 流水 线 化 的 循环 且 尽 可 能 降低 代码 大 小 又 很 重要 的 
机 器 ， 为 软件 流水 线 化 提供 专门 的 文 持 机 制 是 合理 的 。 


10.5.13”10.5 节 的 练习 


练习 10.5.1: 在 例 10.20 中 ， 我 们 说 明了 如 何 求 出 b 和 c 之 间 的 相对 时 
钟 距离 的 上 下 界 。 分 别 Q@ 为 一 般 化 的 T， 名 为 T=3，@ 为 T=4， 计 算 另 外 
五 对 结 点 的 上 下 界 。 


练习 10.5.2: 图 10-31 显 示 的 是 一 个 循环 的 循环 体 。a (R9) 这 样 的 地 
址 是 内 存 位 置 ， 其 中 a 是 一 个 常数 ， 而 R9 是 对 该 循环 的 迭代 进行 计数 的 
寄存 器 。 因 为 对 于 不 同 的 迭代 有 不 同 的 R9 的 值 ， 所 以 可 以 假设 该 循环 的 
每 个 迭代 访问 不 同 的 位 置 。 使 用 例 10.12 中 的 机 器 模型 ， 按 照 下 面 的 方 
法 对 图 10-31 中 的 循环 进行 调度 。 





i 


LD R1, a(R9) 

ST b(R9), R1 

LD R2, c(R9) 

ADD R3, R11, R2 
ST elR9), B3 

SUB R4, R11, R2 
ST b(R9), R4 

BL R9, L 


| 
2 
3 
1 
9 
6 
yi 


dd 


Oo 





图 10-31 练习 10.5.2 的 机 器 代码 


1) 尽量 保持 各 个 达 代 紧 致 ( 即 在 每 个 算术 运算 之 后 只 引入 一 个 nop 
运算 ) ， 把 该 循环 展开 两 次 。 该 机 器 在 任意 时 钟 周 期 上 只 能 做 一 次 加 载 








运算 、 一 个 保存 运算 、 一 个 算术 运算 以 及 一 个 分 文 运算 。 在 不 破坏 上 面 
约束 的 情况 下 ， 调 度 第 二 次 迭代 使 之 在 尽 可 能 早 的 时 刻 开 始 。 


2) 重复 (1) 部 分 ， 但 是 把 这 个 循环 展开 三 次 。 同 样 ， 在 遵守 机 絮 
资源 约束 的 情况 下 让 各 个 迭代 尽 可 能 早 地 局 动 。 


! 3) 在 遵守 机 器 约束 的 情况 下 构造 完全 流水 线 化 的 代码 。 在 这 一 
部 分 ， 可 以 在 必要 时 引入 nop 运 算 ， 但 是 你 必须 每 两 个 时 钟 周期 启动 一 
个 新 迭代 。 

练习 10.5.3: 某 一 个 循环 需要 5 个 加 载运 算 、7 个 保存 运算 和 8 个 算术 
运算 。 假 设 有 这 样 一 台 机 器 ， 它 的 每 个 运算 都 能 够 在 一 个 时 钟 周期 内 完 
成 ， 并 且 有 足够 的 资源 在 一 个 时 钟 周期 内 执行 : 

1) 3 个 加 载运 算 ，4 个 保存 运算 和 5 个 算术 运算 。 

2) 3 个 加 载运 算 ，3 个 保存 运算 和 3 个 算术 运算 。 


请 问 对 于 上 面 的 两 种 情况 ， 这 个 循环 经 软件 流水 线 化 后 的 局 动 间 隔 


最 小 是 多 少 ? 


! 练习 10.5.4: 使 用 例 10.12 中 的 机 器 模型 ， 为 下 列 循 环 





for (i = 1; i < n; i++) { 
A = Bli=4] + 1 
Bl 二 LL] + 

} 


寻找 最 小 的 局 动 间隔 以 及 对 此 循环 的 各 个 达 代 的 统一 调度 方案 。 请 记 
住 ， 对 迭代 的 计数 是 通过 寄存 器 的 目 动 增 一 运算 实现 的 ， 不 需要 专门 的 
对 for 循 环 计数 的 运算 指令 。 


! 练习 10.5.5: 请 证 明 ， 如 果 每 个 运算 都 只 再 要 一 个 单元 的 茶 种 资 
算法 10.19 总 能 够 找到 一 个 使 用 局 动 间 隔 下 界 的 软件 流水 线 调度 方 


水 o 





! 练习 10.5.6: 假设 有 一 个 结 点 集合 为 a、b、c、d 的 有 环 的 数据 依 
赖 图 。 从 a 到 pb 以 及 从 c 到 d 都 有 标号 为 《0，1) 的 边 ， 从 b 到 c 及 从 d 到 a 都 


有 标号 为 (1,1) 的 边 。 此 外 ， 再 没有 其 他 的 边 。 
1) 画 出 这 个 有 环 的 依赖 图 。 
2) 计算 记录 了 结 点 之 间 的 最 长 简单 路 径 的 表 。 
3) 如 果 启 动 间隔 T 的 值 为 2， 指 出 最 长 简单 路 径 的 长 度 。 
4) 设 T=3， 重 复 (3) 。 


5) 对 于 T=3 的 情况 ， 在 调度 a、b、c、d 所 表示 的 各 条 指令 时 ， 它 们 
之 间 的 相对 时 间 的 约束 是 什么 ? 


! 练习 10.5.7: 假设 在 一 个 有 n 个 结 点 的 图 中 没有 长 度 为 正 的 环 ， 给 
出 一 个 O (my) 的 寻找 该 图 中 最 长 简单 路 径 长 度 的 算法 。 提 示 : 修正 
Floyd 的 最 短路 径 算 法 〈 见 A.V.Aho 和 J.D.Ullman, Foundations of 
Computer Science, Computer Science Press, New York, 1992) 。 


! ! 练习 10.5.8: 假设 我 们 有 一 个 带 有 三 种 指令 类 型 的 机 器 ， 我 们 
把 这 三 种 指令 称 作 A、B 和 C。 上 所 有 的 指令 都 需要 一 个 时 钟 周期 ， 并 且 该 
机 器 可 以 在 每 个 时 钟 周期 执行 每 个 类 型 的 各 一 条 指令 。 假 设 一 个 循环 由 
六 条 指令 组 成 ， 每 种 两 个 ， 那 么 一 个 软件 流水 线 能 够 以 2 作为 启动 间隔 
执行 这 个 循环 式 。 但 是 ， 这 六 条 指令 的 某 些 序列 要 求 插入 一 个 延 时 ， 而 
另外 一 些 序列 需要 插入 两 个 延 时 。 在 90 种 可 能 的 由 两 个 A 型 指令 、 两 个 
B 型 指令 和 两 个 C 型 指令 组 成 的 序列 中 ， 多 少 个 序列 不 需要 延 时 ? 多 少 
个 序列 需要 一 个 延 时 ? 提示 : 在 这 三 类 指令 中 存在 对 称 性 ， 因 此 如 果 两 
个 序列 能 够 通过 交换 A、B 和 C 的 名 字 相 互 转换 ， 那 么 它们 就 需要 同样 多 
的 延 时 。 比 如 ，ABBCAC 一 定 和 BCCABA 一 样 。 





10.6 第 10 童 总结 


体系 结构 问题 : 被 优化 的 代码 调度 利用 了 现代 计算 机 体系 结构 的 一 
些 特性 。 这 样 的 机 右 常 常 多 许 以 流水 线 方式 执行 代码 ， 也 就 是 多 条 
指令 在 同一 个 时 刻 处 于 不 同 的 执行 阶段 。 有 些 机 需 还 多 许多 条 指令 
在 同一 个 时 刻 开 始 执行 。 

数据 依赖 : 在 调度 运算 指令 时 ， 我 们 必须 知道 这 些 指令 对 于 每 个 内 
存 位 置 和 寄存 器 的 影响 。 如 果 一 条 指令 必须 在 万 一 指令 对 茶 个 内 存 
位 置 写 入 之 后 才 读 取 该 位 置 的 值 ， 那 么 这 两 条 指令 之 间 具 有 真 依赖 
关系 。 如 果 有 一 个 对 同一 位 置 的 读 指令 之 后 的 写 指令 ， 那 么 两 条 指 
令 之 间 融 出 现 反 依赖 关系 ;， 当 有 两 个 对 同一 位 置 的 写 指令 时 就 会 出 
现 输出 依赖 。 

消除 依赖 关系 : 通过 使 用 附加 的 位 置 存放 数据 ， 可 以 消除 反 依赖 和 
输出 依赖 。 只 有 真 依赖 不 能 被 消除 ， 并 且 在 调度 代码 时 必须 保证 遵 
守 这 类 依赖 关系。 

基本 块 的 数据 依赖 图 : 这 些 图 表示 了 一 个 基本 块 中 的 语句 之 间 的 时 
间 安 排 约束 。 图 的 结 点 对 应 于 这 些 语句 。 从 na 到 m 的 标 写 为 d 的 边 表 
明 指 令 m 的 开始 时 刻 必 须 比 n 的 开始 时 刻 晚 至 少 d 个 时 钟 周期 。 

带 优先 级 的 拓扑 排序 : 一 个 基本 块 的 数据 依赖 图 总 古 无 环 的 ， 通 向 
有 很 多 个 与 这 个 依赖 图 一 致 的 拓扑 排序 。 为 一 个 给 定 依赖 图 选择 较 
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列表 调度 : 给 定 一 个 数据 依赖 图 的 带 优先 级 的 拓扑 排序 ， 我 们 可 以 
按照 这 个 顺序 考虑 对 结 点 的 调度 。 在 对 每 个 结 点 进行 调度 时 ， 把 每 
个 结 点 安排 在 最 早 的 满足 下 列 条 件 的 时 钟 周期 上 : 满足 图 的 边 所 强 
涵 的 时 间 安 排 约 束 ， 并 且 和 所 有 之 前 已 经 调度 好 的 结 点 的 调度 方案 
一 臻 ， 同 时 满足 该 机 器 的 资源 约束 。 

基本 块 之 间 的 代码 移动 : 在 某 些 情况 下 ， 可 以 把 一 些 语句 从 它 所 在 
的 基本 块 移动 到 该 基本 块 的 前 驱 或 后 继 。 进 行 这 种 移动 的 好 处 在 于 
有 机 会 在 新 的 位 置 上 并 行 执行 新 指令 ， 而 在 原 位 置 上 可 能 没有 这 个 
机 会 。 如 果 原 基本 块 和 新 位 置 之 间 没有 支配 关系 ， 那 么 有 必要 在 菏 
些 路 径 上 插入 补偿 代码 ， 以 保证 不 管控 制 流 如 何 运行 ， 被 执行 的 总 
是 相同 的 代码 序列 。 

do-all 循 环 : 一 个 do-all 循 环 的 迭代 之 间 不 存在 依赖 关系 ， 因 此 各 
个 迭代 都 可 以 并 行 运 行 。 





do-al1 循 环 的 软件 流水 线 化 : 软件 流水 线 化 技术 充分 利用 了 目标 机 
器 能 够 同时 执行 多 条 指令 的 能 力 。 通 过 调度 使 得 循环 的 各 个 迭代 的 
开始 时 刻 只 相隔 很 短 的 时 间 。 在 此 过 程 中 可 能 需要 在 迭代 中 插入 
no-op 指 令 以 避免 迭代 之 则 产生 机 器 资源 冲突 。 结 果 ， 循 环 可 以 很 
快 地 执行 ， 其 中 包括 序言 、 尾 声 和 (通常) 较 小 的 内 部 循环 。 
do-across 循 环 : 很 多 循环 具有 从 每 个 迭 代 到 后 续 友 代 的 依赖 关 
系 。 这 些 循环 称 为 do-across 循 环 。 
do-across 循 环 的 数据 依赖 图 : 为 了 表示 一 个 do-across 循 环 的 指令 
之 间 的 依赖 关系 ， 依 赖 图 中 的 边 的 标号 由 两 个 值 组 成 : 必须 的 延 时 
《和 表示 基本 块 的 依赖 图 中 的 延 时 含义 相同 ) 以 及 在 具有 依赖 关系 
的 两 条 指令 之 间 相 隔 的 迭代 数量 。 
循环 的 列表 调度 算法 : 为 了 调度 一 个 循环 ， 我 们 必须 为 所 有 的 迭代 
选择 同一 个 调度 方案 ， 并 选择 启动 间隔 ， 即 连续 友 代 的 局 动 时 刻 的 
间隔 。 这 个 算法 还 需要 获取 针对 循环 中 不 同 指令 的 相对 调度 方案 的 
约束 。 它 通过 计算 两 个 结 点 之 间 的 最 长 无 环 路 径 的 长 度 来 获得 这 种 
约束 。 算 法 求 得 的 这 些 长 度 把 局 动 间 隔 作为 参数 ， 因 此 给 启动 间隔 
设 定 了 二 个 下 界 。 
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Hennessy 和 了 Patterson [5] 。 


数据 依赖 的 概念 首先 出 现在 Kuch、Muraoka 和 Chen L6] 以 及 
Lamport [8] 中 ， 在 多 处 理 器 和 癌 量 机 编译 代码 的 上 下 文中 讨论 。 


指令 调度 首先 在 水 平 微 代码 调度 中 使 用 ( [2，3，11 和 12」 ) 。 
Fisher 在 微 代 码 压 缩 上 的 研究 成 果 使 他 提出 了 VLIW 机 器 的 概念 。 在 这 种 
机 器 上 ， 编 译 器 可 以 直接 控制 运算 的 并 行 执 行 [3] 。Gross 和 
Hennessy [4j」 在 第 一 个 MIPS RISC 指 令 集中 使 用 指令 调度 方法 来 处 理 被 
延 时 的 分 支 。 本 章 的 算法 是 基于 Bernstein 和 Rodeh [1|] 的 研究 成 果 的 。 
的 工作 对 具有 指令 级 并 行 机 制 的 机 器 的 运算 调度 作出 了 更 一 般 化 的 
理 。 


软件 流水 线 化 的 基本 思想 首先 由 Patel 和 Davidson L9】] 为 硬件 流水 
线 调度 而 提出 。 软 件 流水 线 化 技术 首先 由 Rau 和 Glaseser [10] 用 于 为 一 
个 具有 文 持 软 件 流水 线 化 的 特殊 硬件 机 制 的 机 器 编译 代码 。 这 里 描述 的 
算法 基于 Lam L7] ， 该 文中 假设 没有 特殊 硬件 的 文 持 。 

















1. Bernstein, D. and M. Rodeh, “Global instruction scheduling for super- 
scalar machines,” Proc. ACM SIGPLAN 1991 Conference on Program- 
ming Language Design and Implementation, pp. 241-255. 


2. Dasgupta, S., “The organization of microprogram stores,” Computing 
Surveys 11:1 (1979), pp. 39-65. 


3. Fisher, J. A., “Trace scheduling: a technique for global microcode com- 
paction,” IEEE Trans. on Computers C-30:7 (1981), pp. 478-490. 


4. Gross, T. R. and Hennessy, J. L., “Optimizing delayed branches,” Proc. 
15th Annual Workshop on Microprogramming (1982), pp. 114-120. 


5. Hennessy, J. L. and D. A. Patterson, Computer Architecture: A Quanti- 
tative Approach, Third Edition, Morgan Kaufman, San Francisco, 2003. 


6. Kuck, D., Y. Muraoka, and S$. Chen, “On the number of operations 
simultaneously executable in Fortran-like programs and their resulting 
speedup,” IEEE Transactions on Computers C-21:12 (1972), pp. 1293- 
1310. 


7. Lam, M. S., “Software pipelining: an effective scheduling technique for 
VLIW machines,” Proc. ACM SIGPLAN 1988 Conference on Program- 
ming Language Design and Implementation, pp. 318-328. 


8. Lamport, L., “The parallel execution of DO loops,” Comm. ACM 17:2 
(1974), pp. 83-93. 


9. Patel, J. H. and E. S. Davidson, “Improving the throughput of a pipeline 
by insertion of delays,” Proc. Third Annual Symposium on Computer 47- 
chitecture (1976), pp. 159-164. 


10. Rau, B. R. and C. D. Glaeser, ”Some scheduling techniques and an 
easily schedulable horizontal architecture for high performance scientific 
computing,” Proc. 14th Annual Workshop on Microprogramming (1981), 
pp. 183-198. 


11. Tokoro, M., E. Tamura, and T. Takizuka, “Optimization of micropro- 
grams,” IEEE Trans. on Computers C-30:7 (1981), pp. 491-504. 


12. Wood, G., “Global optimization of microprograms through modular con- 
trol constructs,” Proc. 12th Annual Workshop in Microprogramming 
(1979), pp. 1-6. 





[11 在 含义 明确 的 时 候 ， 我 们 将 把 上 时钟 “ 喃 哄 ” 或 者 时 钟 周 期 简称 
为 [24 时 和 3 


第 11 章 ”并 行 性 和 局 部 性 优化 


本 章 将 介绍 一 个 编译 器 如 何 增 强 处 理 数组 的 计算 密集 型 程序 中 的 并 
行 性 和 局 部 性 ， 以 便 提 高 目标 程序 在 多 处 理 器 系统 上 的 远 行 速度 。 很 多 
科学 、 工 程 和 商业 领域 的 应 用 对 计算 能 力 的 要 求 是 永 无 止境 的 。 这 些 例 
子 包括 气象 预报 ， 用 于 药物 设计 的 重 晶 质 折合 ， 用 于 设计 航空 推进 系统 
的 流体 动力 学 和 用 于 高 能 物理 中 强 相互 作用 研究 的 量子 色 动 力学 。 


加 快 计算 过 程 的 方法 之 一 就 是 使 用 并 行 技术 。 遗 憾 的 是 ， 开 友 可 以 
利用 并 行 机 器 的 软件 并 不 是 容易 的 事情 。 把 计算 过 程 分 割 为 多 个 可 以 在 
不 同 并 行 处 理 器 上 执行 的 单元 已 经 是 很 困难 的 事情 了 ， 但 是 这 样 的 分 割 
还 不 一 定 能 保证 提高 速度 。 我 们 还 必须 把 处 理 器 之 间 的 通信 量 减 到 最 
小 ， 因 为 通信 开销 很 容易 使 并 行 代码 运行 得 甚至 比 串 行 代码 还 慢 ! 


尽 可 能 降低 通信 开销 可 以 被 当 作 是 提高 程序 的 数据 局 部 性 〈data 
locality〉 的 一 个 特殊 情况 。 一 般 来 说 ， 如 果 一 个 处 理 器 经 常 访问 它 最 近 
使 用 的 同一 组 数据 ， 我 们 束 说 这 个 程序 具有 良好 的 数据 局 部 性 。 如 果 并 
行 机 上 的 一 个 处 理 器 具有 良好 的 局 部 性 ， 它 就 不 需要 和 其 他 处 理 器 频繁 
通信 。 因 此 ， 并 行 性 和 数据 局 部 性 必须 放 在 一 起 考虑 。 数 据 局 部 性 本 号 
对 于 单个 处 理 器 的 性 能 也 是 很 重要 的 。 现 代 处 理 器 的 内 存 层次 结构 中 都 
有 一 层 或 多 层 高 速 缓存 ， 一 次 内 存 访问 可 能 会 需要 几 十 个 机 器 周期 ， 而 
在 高 速 缓存 中 命中 的 运算 只 需要 几 个 机 器 周期 。 如 果 一 个 程序 没有 展 好 
“I 并 经 常 在 缓存 访问 中 脱 有 对， 那么 它 的 性 能 就 会 受到 影 
Do] 。 


在 本 章 中 同时 处 理 并 行 性 和 数据 局 部 性 的 男 一 个 理由 是 它们 使 用 的 
理论 相同 。 如 果 我 们 知道 如 何 优化 数据 局 部 性 ， 也 就 知道 了 并 行 性 在 哪 
里 。 在 本 章 ， 你 将 看 到 第 9 章 中 为 进行 数据 流 分 析 而 使 用 的 程序 模型 对 
并 行 化 和 局 部 性 优化 来 说 是 不 够 的 。 原 因 是 在 数据 流 分 析 中 的 工作 假设 
我 们 不 需要 区 分 到 达 一 个 给 定语 句 的 不 同 路 径 。 实 际 上 ， 第 9 章 中 的 那 
些 技术 利用 了 不 需要 区 分 同一 个 语句 的 〈 例 如 ， 在 循环 中 的 ) 不 同 执行 
的 事实 。 为 了 实现 代码 并 行 化 ， 需 要 考虑 同一 语句 的 不 同 动态 执行 实例 
之 间 的 依赖 关系 ， 以 决定 它们 是 否 可 以 在 不 同 处 理 器 上 同时 执行 。 


本 章 关 注 的 是 用 于 优化 茶 一 类 数值 应 用 的 技术 。 这 类 应 用 使 用 数组 



























































作为 数据 结构 ， 并 且 以 一 种 简单 且 规 则 的 模式 访问 这 些 数 据 结构 。 更 明 
确 地 说 ， 我 们 研究 的 程序 中 包含 的 数组 访问 与 外 围 循环 的 下 标 变 量 之 间 
有 具有 仿 射 天 系 。 例 如 ， 如 果 i 利 j 是 外 围 循环 的 下 标 变量 ， 那 么 Z_ [jj 
Lj] 和 Z Li Li+j」 都 是 仿 射 访问 。 如 果 关 于 一 个 或 多 个 变量 x|、x，、 
.…、Xn 的 函数 可 以 被 表示 为 一 个 常数 加 上 常数 乘 以 这 些 变 量 的 和 ， 即 
GCC 其 中 Cp C05 C03 sy 全 是 币 数 ， 那 余 这 个 函数 
0 0 
co 项。 


下 面 是 这 个 领域 内 的 循环 的 一 个 简单 的 例子 : 


0; i < 10; i++) { 





因为 这 个 循环 的 各 个 大 代 对 不 同 的 内 存 位 置 进行 写 运 算 ， 不 同 的 处 理 嚣 
可 以 并 有 友 地 执行 不 同 的 迭代 。 男 一 方面 ， 如 果 有 为 一 个 语句 Z [jj =1IE 
在 执行 ， 我 们 就 要 担心 是 否 可 能 和 j 相 同 ， 以 及 如 果 相 同 的 话 ， 要 按照 
什么 顺序 来 执行 这 两 个 具有 相同 数组 下 标 值 的 语句 的 实例 。 


知道 哪些 友 代 可 能 指 问 同一 个 内 存 位 置 是 很 重要 的 。 这 个 知识 使 我 
们 可 以 描述 调度 代码 时 必须 遵守 的 数据 依赖 ， 不 管 被 调度 的 代码 是 在 单 
处 理 器 上 运行 还 是 在 多 处 理 占 上 运行 。 我 们 的 目标 是 找到 一 个 休 守 所 有 
数据 依赖 关系 的 调度 方案 ， 使 得 访问 相同 内 存 位 置 或 高 速 缓存 线 的 运算 
SA 
理 规 上 执行 。 


本 章 中 给 出 的 理论 是 基于 线性 代数 和 整数 规划 技术 的 。 我 们 把 一 个 
深度 为 n 的 循环 拒 套 结构 中 的 友 代 建 模 为 一 个 n 维 多 面体 。 该 多 面体 的 边 
界 用 代码 中 循环 的 界限 来 描述 。 仿 射 函 数 把 每 个 友 代 映射 成 为 它 所 访问 
的 数组 位 置 。 我 们 可 以 使 用 整数 线性 规划 技术 来 确定 是 否 存 在 可 能 指 问 
同一 个 位 置 的 两 个 迭代 。 


我 们 在 这 里 讨论 的 代码 转换 方法 的 集合 可 以 分 成 两 类 : 仿 射 分 划 
(affine partitioning) 和 分 块 (blocking〉。 仿 射 分 划 把 迭代 的 多 面体 分 
割 成 为 多 个 部 分 ， 在 不 同 的 机 器 上 执行 各 个 部 分 ， 或 者 一 个 一 个 地 顺序 
执行 各 个 部 分 。 另 一 方面 ， 分 蕊 技术 创建 了 一 个 由 迭代 组 成 的 层次 结 




















构 。 假 设 有 一 个 以 逐 行 方式 扫描 整个 数组 的 循环 。 我 们 可 以 把 这 个 数组 
分 成 多 个 块 ， 并 且 逐 块 访问 其 中 的 元 系 。 最 后 得 到 的 代码 由 忆 历 这 些 块 
的 外 层 循 环 和 扫描 各 块 中 元 素 的 内 层 循环 组 成 。 线 性 代数 技术 用 来 确定 
最 好 的 仿 射 分 划 和 最 好 的 分 块 方案 。 


在 接 下 来 的 内 容 中 ， 我 们 先 在 11.1 节 中 概述 关于 并 行 计算 和 局 部 性 
优化 的 概念 。 然 后 ， 在 11.2 节 中 给 出 一 个 具体 例子 一 一 矩阵 乘法 。 这 个 
例子 用 于 说 明 循 环 转 换 ， 即 对 一 个 循环 内 的 计算 过 程 进 行 重新 排序 ， 是 
如 何 既 提高 局 部 性 又 提高 并 行 化 效率 的 。 


11.3 节 到 11.6 节 给 出 了 循环 转换 所 必需 的 基本 信息 。11.3 节 介绍 如 
何 对 一 个 循环 磐 套 结构 中 的 各 个 迭代 进行 建 模 ;11.4 介 绍 如 何 对 数组 下 
标 函 数 建 模 。 这 类 函数 把 每 个 循环 迭代 映射 到 被 该 迭代 访问 的 数组 位 
置 : 11.5 节 介绍 如 何 使 用 标准 线性 代数 算法 来 确定 一 个 循环 中 的 哪些 迭 
代 访 问 了 相同 的 数组 位 置 或 高 速 缓存 线 ; 11.6 节 说 明 如 何 找 到 一 个 程序 
中 的 数组 引用 之 间 的 所 有 数据 依赖 关系 。 


本 章 的 其 余部 分 应 用 这 些 基 本 拉 术 来 进行 优化 。11.7 节 首先 考虑 一 
个 比较 简单 的 问题 ， 即 寻找 不 需要 同步 的 并 行 性 。 为 了 找到 了 最 佳 的 仿 射 
分 划 方 案 ， 我 们 只 需要 找到 满足 下 面 约束 的 解 : 具有 数据 依赖 关系 的 运 
算 必 须 被 分 配 到 同一 个 处 理 器 上 。 


当然 ， 没 有 多 少 程序 能 够 在 不 需要 任何 同步 的 情况 下 实现 并 行 化 。 
因此 ， 在 11.8 节 到 11.9.9 节 将 探讨 寻找 需要 同步 的 并 行 性 的 一 般 情 况 。 
我 们 引入 了 流水 线 化 的 概念 ， 说 明 如 何 寻 找 能 够 达到 一 个 程序 所 允许 的 
最 大 流水 线 化 程度 的 仿 射 分 划 。 我 们 将 在 11.10 节 中 说 明 如 何 优化 数据 
局 部 性 。 最 后 ， 我 们 讨论 如 何 把 仿 射 变换 用 于 其 他 形式 的 并 行 性 。 









































11.1 基本 概念 


本 节 介 绍 了 一 些 和 并 行 化 及 局 部 性 优化 相关 的 基本 概念 。 如 果 运 算 
可 以 并 行 执行 ， 它 们 也 可 以 为 了 其 他 目的 《比如 局 部 性 ) 而 重新 排序 。 
有 反 过 来 ， 如 果 一 个 程序 中 的 数据 依赖 关系 决定 了 一 个 程序 中 的 指令 必须 
品行 执行 ， 这 个 程序 显然 不 具有 并 行 性 ， 同 时 也 没有 任何 机 会 对 指令 重 
新 排序 以 提高 数据 局 部 性 。 因 此 ， 并 行 化 分 析 也 可 以 寻找 可 用 的 机 会 ， 
为 了 提高 数据 局 部 性 而 进行 移动 代码 。 


为 了 尽 可 能 降低 并 行 代码 之 间 的 通信 量 ， 我 们 把 所 有 相关 的 运算 都 
组 合 在 一 起 ， 并 把 它们 分 配给 同一 个 处 理 右 。 因 此 得 到 的 代码 必然 共有 
数据 局 部 性 。 在 单 处 理 器 上 获得 良好 数据 局 部 性 的 一 个 粗略 的 方法 是 让 
该 处 理 器 顺序 执行 在 并 行 化 时 分 配给 各 个 处 理 需 的 代码 。 


在 本 节 中 ， 我 们 首先 概述 并 行 计算 机 体系 结构 。 然 后 给 出 并 行 化 的 
基本 概念 。 并 行 化 是 一 种 可 以 引起 巨大 变化 的 转换 技术 ， 同 时 会 介绍 一 
些 对 并 行 化 有 用 的 概念 。 然 后 我 们 讨论 了 如 何 把 这 些 类 似 的 考虑 用 于 优 
化 数据 局 部 性 。 最 后 ， 我 们 将 非 正式 地 介绍 本 章 中 使 用 到 的 数学 概念 。 














11.1.1 多 处 理 器 


最 流行 的 并 行 机 体系 结构 是 对 称 多 处 理 器 (Symmetric 
MultiProcessor，SMP) 结构 。 高 性 能 个 人 计算 机 通常 有 两 个 处 理 器 ， 而 
很 多 服务 器 有 四 个 、 八 个 ， 甚 至 几 十 个 处 理 器 。 不 仅 如 此 ， 因 为 现在 已 
经 能 够 实现 把 多 个 高 性 能 处 理 吉 集成 在 一 个 必 片 上 ， 所 以 多 处 理 喜 得 到 
了 更 加 广泛 的 应 用 。 





图 11-1 对 称 多 处 理 器 体系 结构 


一 个 对 称 多 处 理 器 结构 中 的 各 个 处 理 需 共享 同一 个 地 址 空间 。 进 行 
通信 时 ， 一 个 处 理 器 把 数据 写 到 茶 个 内 存 位置 ， 然 后 由 其 他 处 理 器 来 读 
取 。 对 称 多 处 理 器 的 名 字 就 是 源 于 所 有 的 处 理 需 能 够 以 统一 的 访问 时 间 
来 访问 系统 中 所 有 的 内 存 。 图 11-1 给 出 了 一 个 多 处 理 器 的 高 层 体系 结 
构 。 各 个 处 理 需 都 拥有 目 己 的 第 一 层 、 第 二 层 高 速 缓存 ， 有 时 甚至 拥有 
0 0 
子 。 

















对 称 多 处 理 器 使 用 一 致 缓存 协议 〈coherent cache protocol) 来 对 程 
序 员 隐藏 高 速 缓存 的 存在 。 在 这 样 的 协议 下 ， 多 个 处 理 器 可 以 同时 保存 
同一 高 速 缓存 线 的 多 个 找 贝 出 ， 前 提 是 它们 都 只 是 读 取 数据 。 当 一 个 处 
理 器 想 同 一 个 高 速 缓存 线 写 数据 时 ， 所 有 其 他 的 高 速 缓存 拷贝 都 被 市 
除 。 当 一 个 处 理 器 请 求 的 数据 不 在 高 速 缓存 中 时 ， 该 请 求 会 回 外 传递 到 
共享 上 总线， 并 从 内 存 或 其 他 人 处理 占 的 高 速 缓 存 中 获取 数据 。 


一 个 处 理 器 和 故 一 个 处 理 器 通信 所 花 的 时 间 大 约 是 内 存 访问 时 间 的 
两 倍 。 以 缓存 线 为 单位 的 数据 必须 首先 从 源 处 理 需 的 高 速 缓存 写 到 内 存 
中 ， 然 后 再 从 内 存 取出 放 到 第 二 个 处 理 器 的 高 速 缓存 中 。 你 可 能 认为 处 
理 吉 之 间 的 通信 相对 便宜 ， 因 为 它 只 需要 大 约 两 倍 于 内 存 访问 的 时 间 。 
但 是 ， 必 须 记 住 ， 相 对 于 在 高 速 缓存 中 命中 的 访问 和 运算， 内存 访问 已经 



































非常 昂贵 内 存 访问 可 能 慢 几 百倍 。 这 个 分 析 十 分 消 楚 地 说 明了 局 
效 并 行 化 和 局 部 性 分 析 之 间 的 相似 性 。 不 管 是 单独 工作 的 处 理 器 还 是 多 
处 理 需 环境 下 的 处 理 器 ， 要 使 它 高 效 工 作 惑 必须 使 它 能 够 在 高 速 缓存 中 
找到 运算 所 需 的 大 部 分 数据 。 


在 21 志 纪 早 期 ， 对 称 多 人 处理 器 的 设计 超 不 过 几 十 个 处 理 器 的 规模 ， 
原因 是 受到 共享 总 线 或 任何 其 他 用 于 此 目的 的 互联 设施 的 限制 。 它 们 在 
速度 上 不 能 应 对 不 断 增加 的 处 理 器 数量 。 为 了 使 得 处 理 器 设计 可 不 断 扩 
大 规模 ， 体 系 结构 设计 师 们 叉 在 内 存 层次 结构 中 引入 了 新 的 一 层 。 他 们 
不 再 使 用 和 各 个 处 理 器 距离 一 样 远 的 内 存 ， 而 是 把 内 存 分 配给 各 个 处 理 
器 ， 以 便 每 个 处 理 器 能 够 快速 访问 它 的 局 部 内 存 ， 如 图 11-2 所 示 。 因 此 
远程 内 存 成 为 内 存 层 次 的 下 一 级 ， 它 们 的 总 量 要 比 局 部 内 存 大 ， 但 是 访 
问 时 花费 的 时 间 也 更 长 。 和 内 存 体系 结构 设计 时 高 速 存 储 设 备 必 然 容 量 
人 

必然 较 少 。 


第 一 层 第 一 层 第 一 层 第 一 层 
高 速 缓 存 高 速 缓存 高 速 缓存 高 速 缓存 


























第 二 层 第 二 层 第 二 层 


第 二 层 


总 线 或 其 他 互 连 设施 





图 11-2 ”分布 式 内 存 的 机 器 


有 两 种 不 同 的 带 有 分 布 式 内 存 的 并 行 机 : NUMA (NonUniform 
Memory Access， 不 一 致 内 存 访问 ) 机 堪 以 及 消息 传递 机 器 。NUMA 体 
系 结构 为 软件 提供 了 一 个 共享 地 址 空间 ， 人 允许 处 理 器 通过 读 写 共享 内 存 
来 通信 。 然 而 ， 在 消 恩 传递 机 器 上 的 处 理 器 有 各 目的 地 址 空间 ， 处 理 器 
之 则 通过 相互 传递 消 恩 来 通信 。 请 注意 ， 虽 然 为 共享 内 存 机 器 写 代 人 码 要 











相对 简单 ， 但 任何 一 种 机 器 要 想 具 有 好 的 性 能 ， 都 要 求 软 件 具 有 民 好 的 
局 部 性 。 


11.1.2 ”应 用 中 的 并 行 性 


我 们 使 用 两 种 高 层次 的 度量 来 估计 一 个 并 行 应 用 性 能 运行 的 好 坏 : 
并 行 性 履 兰 率 和 并 行 性 粒度 ， 前 者 指明 了 并 行 执行 的 计算 过 程 所 占 的 百 
分 比 ; 后 者 指出 了 各 个 处 理 器 在 不 和 其 他 处 理 器 通信 或 同步 的 情况 下 能 
够 运行 的 计算 量 。 一 个 特别 有 吸引 力 的 并 行 化 目标 是 循环 ， 一 个 循环 可 
能 有 很 多 个 达 代 ， 并 且 如 果 它 们 之 间 相 互 独立 ， 我 们 束 找 到 了 一 个 很 大 
的 并 行 性 的 源头 。 


Amdahl 定 律 


并 行 性 覆盖 率 的 重要 性 可 以 用 Amdahl 定 律 简洁 地 表示 。Amdahl 定 
律 的 内 容 是 ， 如 果 f 是 被 并 行 化 代码 的 比率 ， 并 且 如 果 并 行 化 版 本 在 一 
个 有 p 个 处 理 器 的 机 器 上 运行 ， 且 没有 任何 通信 或 者 并 行 化 开销 ， 那 么 
此 时 的 加 速 比 是 : 


1 
(1 = py 


比如 ， 如 果 有 一 半 的 计算 是 串 行 执行 的 ， 那 么 不 省 我 们 使 用 多 少 个 处 理 
器 ， 计 算 过 程 最 多 能 够 以 双 倍 速度 运行 。 如 有 果 我 们 有 4 个 处 理 器 ， 可 达 
到 的 加 速 比 是 1.6。 即 使 并 行 化 覆盖 率 达 到 90%， 我 们 在 4 个 处 理 右 上 最 
多 能 够 得 到 3 倍 的 加 速 比 ， 而 在 无 限 多 的 处 理 器 上 得 到 的 加 速 比 最 多 为 
10。 








并 行 化 的 粒度 


理想 情况 是 一 个 应 用 的 全 部 计算 过 程 能 够 被 划分 成 为 很 多 粗 粒度 的 
独立 任务 ， 因 为 我 们 可 以 直接 把 不 同 的 任务 分 配给 不 同 的 处 理 器 。 这 样 
的 例子 之 一 是 SETI (Search for Extra Terrestrial Intelligence， 寻 找 外 星 吞 
芒 生 物 ) 项 目 ， 这 个 实验 使 用 很 多 通过 Internet 相 连 的 家 性 计算 机 来 并 行 
分 析 射 电 望 远 镜 数 据 的 不 同 部 分 。 每 一 个 工作 单元 只 需要 少量 的 输入 并 
生成 少量 的 输出 ， 并 且 可 以 独立 于 所 有 其 他 单元 完成 。 由 于 这 些 原 因 ， 





虽然 Pnternet 具 有 相对 高 的 通信 延 时 和 低 带 宽 ， 但 这 样 的 计算 工作 仍然 在 
与 Internet 连 接 的 机 器 上 运行 得 很 好 。 


大 部 分 应 用 要 求 处 理 需 之 间 有 更 多 的 通信 和 交互， 但 仍然 文 持 粗 粒 
度 的 并 行 性 。 比 如 ， 考 碟 一 个 Web 服 务 器 ， 它 负责 啊 应 大 量 独立 的 对 一 
个 公共 数据 库 的 请 求 。 我 们 可 以 在 一 个 多 处 理 器 机 器 上 运行 这 个 应 用 ， 
使 用 一 个 线程 来 实现 数据 库 访问 ， 并 使 用 其 他 线程 来 对 用 户 请 求 提 供 服 
务 。 其 他 的 例子 包括 药物 设计 和 机 冲动 力学 模拟 。 在 这 些 例 子 中 ， 人 们 
可 以 独立 地 求解 针对 不 同 的 参数 的 结果 。 在 模拟 的 时 候 ， 有 时 即使 对 于 
一 组 参数 求解 也 会 花 很 长 时 间 ， 因 此 期 望 能 够 使 用 并 行 化 技术 进行 加 
速 。 当 一 个 应 用 中 的 可 用 并 行 性 的 粒度 降低 时 ， 就 需要 更 好 的 处 理 器 之 
间 的 通信 支持 和 更 多 的 编程 工作 量 。 


很 多 运行 时 间 很 长 的 科学 及 工程 应 用 具有 简单 的 控制 结构 和 很 大 的 
数据 集合 ， 因 此 它们 要 比 上 面 讨论 的 应 用 更 容易 实现 更 细 粒 度 的 并 行 
化 。 因 此 ， 本 章 主 要 考虑 的 是 那些 用 于 数值 应 用 的 技术 ， 特 别 是 那些 把 
大 部 分 时 间 用 于 多 维 数 组 中 的 数据 运算 的 应 用 。 下 面 我 们 就 探讨 一 下 这 


类 程序 。 




















11.1.3 ”循环 层次 上 的 并 行 性 


循环 是 并 行 化 的 主要 目标 ， 在 使 用 数组 的 应 用 中 更 是 如 此 。 运 行 时 
间 较 长 的 应 用 通常 具有 大 型 数组 ， 从 而 产生 具有 很 多 达 代 的 循环 。 其 中 
的 每 一 个 迭代 处 理 数组 中 的 一 个 元 素 。 途 代 之 间 相 互 独立 的 循环 并 不 难 
找到 。 我 们 可 以 把 这 类 循环 的 大 量 欠 代 分 配给 多 个 处 理 器 。 如 宋 每 个 迭 
代 的 工作 量 基本 相同 ， 那 么 简单 地 在 处 理 旨 之 间 平 均 分 配 迭 代 束 可 以 得 
到 最 大 的 并 行 性 。 例 11.1 是 一 个 特别 简单 的 例子 ， 它 说 明 我 们 如 何 利用 
循环 层次 的 并 行 性 。 


下 面 的 循环 


for (i = 0; i < n; i++) { 
ZLij = X[i] -YLiJ ; 
Z[ij] a ww FLL] 








计算 了 向 量 X 和 Y 的 元 素 之 间 的 平方 差 ， 并 把 它们 存放 到 数组 Zz 中 。 这 个 
循环 是 可 并 行 化 的 ， 因 为 每 个 迭代 访问 不 同 的 数据 集合 。 我 们 可 以 在 具 
有 M 个 处 理 器 的 计算 机 上 执行 这 个 循环 。 给 每 个 处 理 器 赋予 唯一 的 ID 
p=0，1，2，...，M-1， 并 让 每 个 处 理 器 执行 同样 的 代码 : 


b = ceil(n/M); 

for (i = b*p; i < min(n,b*(p+1)); i++) { 
Zli] = KEI = VELIS 
eli] = ZIi] w ZLids 


下 
我 们 把 这 个 循环 中 的 迭代 平均 分 配给 各 个 处 理 器 ， 第 p 个 处 理 器 被 
分 配 执行 第 p 组 达 代 。 请 注意 ， 达 代 数目 不 一 定 能 够 外 QM 整除 ， 因 此 我 
们 通过 在 程序 中 引入 一 个 求 最 小 值 的 运算 来 保证 最 后 一 个 处 理 器 执行 的 
时 候 不 会 越过 原来 的 循环 界限 。 


任务 层 估 的 并 行 


有 可 能 在 一 个 循环 的 迭代 之 外 找到 并 行 性 。 比 如 ， 我 们 可 以 把 两 
个 不 同 的 函数 调用 或 两 个 独立 的 循环 分 配给 两 个 处 理 器 。 这 种 形式 的 
并 行 性 称 为 任务 并 行 性 (task parallelism) 。 和 循环 层次 的 并 行 性 相 


比 ， 任 务 层次 的 并 行 性 作为 一 个 并 行 性 来 源 的 吸引 力 较 弱 。 原 因 是 对 
于 每 个 程序 来 说 ， 其 独立 任务 的 数量 是 固定 的 ， 并 且 不 能 随 着 数据 大 
小 的 增加 而 增加 。 而 一 个 典型 循环 的 欠 代 次 数 则 会 随 数据 的 增加 而 增 
加 。 不 仅 如 此 ， 这 些 任务 的 大 小 通常 并 不 相等 ， 因 此 难以 让 所 有 的 处 
理 器 在 所 有 时 间 都 有 事 可 做 。 








例 11.1 中 显示 的 并 行 代码 是 一 个 SPMD (Single Program Multiple 
Data， 单 程序 多 数据 ) 程序 。 所 有 的 处 理 器 都 执行 相同 的 代码 ， 只 是 这 
些 代 码 都 融 有 各 个 处 理 器 的 唯一 标识 作为 参数 ， 因 此 不 同 的 处 理 器 完成 
不 同 的 动作 。 通 常会 有 一 个 被 称 为 主 处 理 器 (master) 的 处 理 器 来 执行 
计算 中 的 所 有 串 行 部 分 。 在 到 达 代 码 中 已 并 行 化 的 部 分 时 ， 主 处 理 堪 激 
活 所 有 从 处 理 器 《〈slave) 。 所 有 从 处 理 器 同时 执行 代码 中 已 经 被 并 行 化 





的 区 域 。 在 每 个 并 行 化 代码 区 域 的 尾部 ， 所 有 这 些 处 理 器 参与 栅 障 同步 
(Barrier Synchronization) 。 只 有 等 到 所 有 处 理 器 都 已 经 执行 完 它 们 进 
入 一 个 同步 栅 障 之 前 的 全 部 运算 之 后 ， 各 个 处 理 嚣 才 会 被 允许 离开 这 个 
栅 障 并 执行 栅 障 之 后 的 运算 。 


如 果 我 们 只 是 把 类 似 于 例 11.1 中 的 简单 循环 并 行 化 ， 那 么 得 到 的 代 
码 通常 具有 较 低 的 并 行 性 覆盖 率 和 相对 较 细 的 并 行 性 粒度 。 我 们 倾向 于 
把 一 个 程序 的 最 外 层 循环 并 行 化 ， 因 为 这 样 会 得 到 最 粗 的 并 行 性 粒度 。 
比如 ， 考 虑 二 维 FFT 变 换 的 应 用 ， 它 在 一 个 nxn 的 数据 集 上 运行 。 这 个 
程序 对 各 行 数据 执行 na 次 FFT 变 换 ， 然 后 再 对 各 列 数据 执行 na 次 FFT 变 
换 。 我 们 倾 癌 于 把 n 个 独立 FFT 变 换 中 的 每 一 个 分 配给 一 个 处 理 器 ， 而 
不 是 使 用 多 个 处 理 器 协作 完成 一 次 FFT 变 换 。 这 样 做 使 得 代码 容易 书 
写 ， 算 法 的 并 行 性 覆盖 率 达 到 100%， 并 且 代 码 具 有 很 好 的 数据 局 部 
性 ， 因 为 在 计算 一 个 FFT 时 不 需要 进行 任何 通信 。 


很 多 应 用 没有 可 并 行 化 的 大 的 最 外 层 循 环 。 然而， 这 些 应 用 的 执行 
时 间 通 常 由 耗 时 的 内 核 决 定 。 这 些 内 核 可 能 具有 几 百 行 代码 ， 包 含 了 不 
同谋 套 层次 的 循环 。 有 时 可 以 单独 地 处 理 内 核 部 分 ， 通 过 集中 考虑 它 的 
局 部 性 ， 重 新 组 织 它 的 计算 过 程 并 把 它 分 划 成 为 多 个 独立 的 单元 。 






































11.1.4 数据 局 部 性 


在 对 程序 进行 并 行 化 的 时 候 ， 需 要 考虑 两 种 略微 不 同 的 数据 局 部 性 
概念 。 当 同一 个 数据 在 短 时 间 内 被 多 次 使 用 时 就 产生 了 时 间 局 部 性 
(temporal locality) 。 当 位 置 相近 的 不 同 数据 元 素 在 短 时 间 内 被 使 用 的 
时 候 就 产生 了 空间 局 部 性 (spatial locality) 。 空 间 局 部 性 的 一 个 很 重要 
的 形式 是 在 同一 个 高 速 缓存 线 中 出 现 的 所 有 数据 元 素 被 一 起 使 用 。 这 种 
形式 之 所 以 重要 的 理由 是 当 需 要 一 个 来 自 某 高 速 缓存 线 的 元 兹 时 ， 这 个 
高 速 缓存 线 的 所 有 元 素 都 会 被 加 载 到 高 速 缓存 中 。 如 果 很 快 就 会 使 用 这 
些 元 素 ， 那 么 它们 很 可 能 还 在 高 速 缓存 中 。 这 种 空间 局 部 性 的 效果 使 得 
高 速 绥 存 脱 靶 的 概率 降 到 最 小 ， 也 使 得 该 程序 得 到 了 较 好 的 加 速 比 。 


程序 的 内 核 经 党 可 以 使 用 多 种 不 同 的 方式 来 书写。 它们 之 间 在 语义 
上 等 价 ， 但 是 数据 局 部 性 和 性 能 却 相差 很 大 。 例 11.2 给 出 了 例 11.1 中 的 
计算 过 程 的 妨 一 种 表示 方法 。 




















和 例 11.1 类 似 ， 下 面 的 代码 也 能 够 计算 得 到 向 量 X 和 Y 的 元 素 
之 加 的 产 的 平方 。 


for (i = 0 & < : +4) 
Zz[i] =X[ij - Y[i]; 
for (i = 0; i < n; i++) 
SI] = ZE we ls 


第 一 个 循环 计算 元 素 之 间 的 差 ， 第 二 个 循环 计算 差 的 平方 。 这 样 的 
代码 经 常会 在 实际 程序 中 过 到 ， 因 为 这 就 是 我 们 为 向 量 机 (vector 
machine) 优化 程序 的 办 法 。 回 量 机 是 一 种 超级 计算 机 ， 拥 有 可 以 一 次 
性 对 整个 向 量 进行 简单 算术 运算 的 指令 。 我 们 可 以 看 到 ， 这 里 的 两 个 循 
环 在 例 11.1 中 被 融合 〈fuse) 为 一 个 循环 。 


我 们 已 经 知道 这 两 个 程序 完成 同样 的 计算 工作 ， 那 么 哪 一 个 程序 比 
较 好 呢 ? 例 11.1 中 被 融合 在 一 起 的 循环 拥有 比较 好 的 性 能 ， 因 为 它 具 有 
较 好 的 数据 局 部 性 。 每 个 差 值 一 生成 就 立刻 进行 平方 运算 。 实 际 上 ， 我 
们 可 以 将 差 值 存放 在 一 个 寄存 器 中 ， 求 它 的 平方 ， 并 把 结果 一 次 性 写 入 
内 存 位置 Z [ij 。 上 反 过 来 ， 本 例 中 的 代码 需要 获取 Z [ij 值 一 次 ， 并 对 
它 写 两 次 。 不 仅 如 此 ， 如 果 数 组 的 大 小 比 高 速 缓存 大 ， 那 么 当 Z [ij 在 
这 个 例子 中 被 第 二 次 使 用 时 ， 需 要 从 内 存 中 重新 获取 这 个 值 。 因 此 ， 这 
个 代码 的 运行 速度 可 能 低 很 多 。 


假设 我 们 希望 把 按 行 存放 《回忆 一 下 6.4.3 节 ) 的 数组 Z 设 置 为 
和 地。 图 11-3a 和 图 11-3b 分 别 对 这 个 数组 进行 逐 列 和 逐 行 扫描 。 我 们 可 
以 对 图 11-3a 中 的 循环 进行 变换 得 到 图 11-3b 的 循环 。 从 空间 局 部 性 的 角 
度 看 ， 以 逐 行 方式 执行 置 零 运 算是 比较 好 的 ， 因 为 在 一 个 高 速 缓存 线 中 
的 所 有 字 都 被 顺序 置 零 了 。 在 逐 列 处 理 的 方法 中 ， 虽 然 每 个 高 速 缓存 线 
都 被 外 层 循 环 的 下 一 个 迭代 复 用 ， 但 当 列 的 大 小 比 高 速 缓存 大 的 时 候 ， 
高 速 缓存 线 在 被 复 用 之 前 就 会 被 抛 出 高 速 缓存 。 为 了 得 到 最 好 的 性 能 ， 
我 们 使 用 类 似 于 例 11.1 中 所 使 用 的 方法 ， 把 图 11-3b 的 外 层 循环 并 行 化 ， 
结果 如 图 11-3c 所 示 。 









































a) 逐 列 将 一 个 数组 置 堆 b) 逐 行将 一 个 数组 置 堆 


b = ceil(n/M); 
for (i = b*p; i < min(n,b*(p+1)); I++) 


for (j = 0; j < n; j++) 
2Z[i,j] = 0; 





c) 并 行 地 按照 逐 行 方式 将 一 个 数组 置 零 
图 11-3 将 一 个 数组 置 零 的 顺序 代码 和 并 行 代码 


上 面 的 两 个 例子 解释 了 和 操作 数组 的 数值 应 用 相关 的 几 个 重要 性 

页 : 

。 数组 代码 经 党 有 很 多 可 并 行 化 的 循环 。 

。 当 循 环 具 有 并 行 性 的 时 候 ， 它 们 的 迁 代 可 以 按照 任意 的 顺序 执行 。 
它们 可 以 通过 重新 排序 大 幅 提高 数据 局 部 性 。 

。 当 我 们 创建 出 大 的 相互 独立 的 并 行 计算 单元 时 ， 以 串 行 方式 执行 它 
们 往往 会 得 到 民 好 的 数据 局 部 性 。 





11.1.5 ” 仿 射 变换 理论 概述 


编写 正确 且 高 效 的 串 行 程序 是 困难 的 ， 编 写 正确 且 高 效 的 并 行程 序 
则 更 加 困难 。 编 写 的 难度 随 着 所 利用 的 并 发 性 粒度 的 降低 而 增长 。 我 们 
在 上 面 看 到 过 ， 程 序 员 必 须 注意 数据 局 部 性 以 获取 高 性 能 。 此 外 ， 把 一 
个 已 有 的 串 行 程序 并 行 化 的 任务 是 极端 困难 的 。 找 出 程序 中 的 所 有 依赖 
关系 很 困难 ， 当 这 个 程序 并 不 是 我 们 所 熟悉 的 类 型 时 尤其 如 此 。 调 试 一 
个 并 行程 序 也 很 困难 ， 因 为 错误 可 能 是 不 确定 的 。 


在 理想 情况 下 ， 一 个 并 行 的 编译 器 自动 地 把 普通 的 串 行 程序 翻译 成 
高 效 的 并 行程 序 ， 并 对 这 些 程序 的 局 部 性 进行 优化 。 遗 憾 的 是 ， 编 译 器 
并 不 知道 有 关 这 个 应 用 的 高 层 知 识 ， 它 只 能 保持 原 算法 的 语义 ， 而 这 些 
算法 未 必 适 合 进行 并 行 化 。 而 且 ， 程 序 员 也 可 能 随意 地 做 出 选择 ， 结 
限制 了 程序 的 并 行 性 。 








一 些 Fortran 数 值 应 用 显示 了 并 行 化 和 局 部 性 优化 的 成 功 。 这 些 应 用 
以 仿 射 访问 的 方式 对 数组 进行 操作 。 因 为 没有 指针 和 指针 运算 ， 所 以 对 
Fortran 的 分 析 相 对 容易 。 请 注意 ， 不 是 所 有 的 应 用 都 有 仿 射 访 问 。 最 值 
得 注意 的 是 ， 很 多 数值 应 用 是 在 稀 芷 窃 阵 上 运算 的 。 这 些 和 矩阵 的 元 素 是 
通过 为 一 个 数组 间接 访问 的 。 本 半 关 注 的 是 内 核 的 并 行 化 和 优化 ， 这 些 
内 核 通 党 由 儿 十 行 代码 组 成 。 


如 例 11.2 和 例 11.3 所 示 ， 并 行 化 和 局 部 性 优化 需要 我 们 考虑 一 个 循 
环 的 不 同 实 例 以 及 实例 之 间 的 关系 。 这 个 情况 和 数据 流 分 析 有 着 很 大 的 
不 同 。 在 数据 流 分 析 中 ， 我 们 把 所 有 实例 的 相关 信息 组 合 在 一 起 考虑 。 


对 于 带 有 数组 访问 的 循环 的 优化 问题， 我 们 使 用 三 种 类 型 的 空间 。 
每 个 空间 可 以 看 成 是 一 维 或 多 维 栅 格 中 的 点 集 。 


1) 迭代 空间 (iteration space) 是 在 一 次 计算 过 程 中 动态 执行 实例 
的 集合 ， 也 就 是 各 个 循环 下 标的 取 值 的 组 合 。 


2) 数据 空间 (data space) 是 被 访问 的 数组 元 素 的 集合 。 


3) 处 理 器 空间 (processor Space) 是 系统 中 的 处 理 堪 的 集合 。 通 党 
情况 下 ， 这 些 处 理 器 使 用 整数 或 者 整数 同 量 进行 编写， 以 便 相 互 区 分 。 


优化 问题 的 输入 是 各 个 迭代 被 执行 的 串 行 顺序 以 及 一 个 仿 射 的 数组 
访问 函数 〈 例 如 ，X [i,j+1] ) 。 这 个 函数 描述 了 迭代 空间 中 的 哪个 实 
例 访 问 数 据 空间 中 的 哪个 元 素 。 


这 个 优化 的 输出 也 是 用 仿 冉 函数 表示 的 ， 它 定义 了 每 个 处 理 右 在 什 
么 时 候 做 什么 事情 。 为 了 指明 每 个 处 理 喜 所 做 的 工作 ， 我 们 使 用 一 个 仿 
射 函 数 把 原 达 代 空间 中 的 实例 映射 到 各 个 处 理 器 上 。 为 了 描述 什么 时 候 
执行 碗 代 ， 我 们 使 用 一 个 仿 射 函数 把 达 代 空间 中 的 实例 映 冉 成 为 一 个 新 
的 顺序 。 通 过 分 析 程 序 中 的 数组 访问 函数 所 组 涵 的 数据 依赖 关系 和 复 用 
模式 ， 就 可 以 得 到 调度 方 采 。 


下 面 的 例子 将 说 明 上 述 三 个 空间 一 一 过 代 空间 、 数 据 空 间 和 处 理 絮 
空间 。 它 也 非 正式 地 介绍 使 用 这 些 空 a es 步 及 的 重要 概念 
和 和 需 要 解决 的 问题 。 在 后 面 的 各 节 中 将 详细 介 绍 这 些 概念 。 


图 11-4 解 释 了 下 面 程序 中 用 到 的 不 同 空间 和 这 些 空间 之 间 的 关 
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图 11-4 例 11. 4 的 选 代 空 间 、 数 据 空 间 和 处 理 器 空间 


float Z[100] ; 


for (i = 0; i < 10; i++) 
Z[i+10] = 2Z[i]; 


这 三 个 空间 和 它们 之 间 的 映射 如 下 : 


1) 迭代 空间 : 友 代 空间 是 循环 的 迭代 的 集合 





循环 下 标 变量 的 取 值 给 出 。 一 个 深度 为 4 的 循环 区 套 结构 〈 即 有 d 层 仍 套 





的 循环 ) 有 d 个 下 标 变量 ， 因 此 被 建 模 为 一 个 d 维 空间 。 友 代 空 间 通 过 循 








环 下 标 变量 的 上 下 界 来 限定 。 这 个 例子 的 循环 定义 了 一 个 由 10 个 友 代 组 
成 的 一 维 空间 。 和 空间 中 的 迭代 用 循环 下 标 变量 的 值 : 二 0，1，.…，9 表 


钞 。 


2) 数据 空间 : 数据 空间 由 数组 声明 直接 给 出 。 在 这 个 例子 里 ， 数 
.… 99 作 为 下 标 。 昌 然 所 有 的 数组 在 一 个 程序 的 
地 址 空间 中 是 线性 存放 的 ， 我 们 还 是 把 n 维 向 量 当 作 n 维 空间 处 理 ， 并 人 
设 各 个 下 标 总 是 在 它们 的 界限 之 内 。 当 然 ， 这 个 例子 里 的 数组 是 一 维 


组 中 的 元 素 用 a=0，1， 


的 。 


。 各 个 迭代 的 ID 通过 


3) 处 理 器 空间 : 在 我 们 开始 并 行 化 时 ， 假 设 系 统 中 有 无 限 多 个 虚 
拟 处 理 器 。 这 些 处 理 喜 以 多 维 空间 的 方式 进行 组 织 ， 每 一 个 维度 对 应 于 
我 们 试图 并 行 化 的 循环 藤 套 结构 中 的 一 个 循环 。 在 并 行 化 完成 之 后 ， 如 
果 我 们 拥有 的 物理 处 理 器 少 于 虚拟 处 理 右 ， 惑 把 虚拟 处 理 融 等 分 成 多 个 
块 ， 每 一 块 分 配给 一 个 物理 处 理 器 。 在 这 个 例子 中 ， 我 们 只 需要 10 个 处 
理 句 ， 循 环 的 每 一 个 欠 代 分 配 一 个 处 理 右 。 在 图 11-4 中 ， 我 们 假设 处 理 
器 被 组 织 成 一 个 一 维 空间 且 用 0，1，.…，9 进 行 编号 。 循 环 的 第 i 个 迭代 
被 分 配给 处 理 器 i。 假 如 只 有 五 个 处 理 颖 ， 我 们 可 以 把 迭代 0 和 1 分 配给 
处 理 嚣 0， 办 代 2 和 3 分 配给 处 理 器 1， 以 此 类 推 。 因 为 迭代 是 独立 的 ， 所 
以 只 要 五 个 处 理 右 中 的 每 一 个 分 得 两 个 远 代 ， 我 们 怎么 进行 分 配 并 不 里 
女 


O 





4) 仿 射 数组 下 标 函 数 : 代码 中 的 每 个 数组 访问 都 描述 了 一 个 从 迭 
代 空 间 中 的 迭代 到 数据 空间 中 的 数组 元 素 的 映射 。 如 果 这 个 访问 函数 是 
把 各 个 循环 下 标 变 量 科 以 常量 并 求 和 和 ， 然 后 加 上 一 些 和 常量 值 ， 那 么 这 个 
函数 就 是 仿 射 的 。 本 例 中 的 两 个 数组 下 标 函 数 寺 10 和 ij 都 是 仿 射 的 。 我 们 
可 以 根据 访问 函数 求 出 被 访问 数据 的 维度 〈dimension) 。 在 本 例 中 ， 
人 


5) 仿 射 分 划 : 我 们 使 用 一 个 仿 射 函数 把 一 个 迭代 空间 中 的 各 个 迭 
代 分 配给 处 理 器 空间 中 的 各 个 处 理 器 ， 由 此 把 一 个 循环 并 行 化 。 在 我 们 
的 例子 中 ， 我 们 直接 把 迭 代 i 分 配给 处 理 喜 1i， 也 可 以 使 用 仿 射 函数 来 指 
定 一 个 新 的 执行 顺序 。 如 果 我 们 希望 以 相反 的 顺序 串 行 地 执行 上 面 的 循 
环 ， 那 么 可 以 用 一 个 仿 射 表达 式 10-i 明 确 指定 排序 函数 。 这 样 ， 第 九 个 
友 代 如 是 被 第 一 个 执行 的 迭代 ， 以 此 类 推 。 


6) 被 访问 数据 的 区 域 : 知道 一 个 迭代 所 访问 数据 的 区 域 有 助 于 找 
到 最 好 的 仿 射 分 划 。 把 迭代 空间 的 信息 和 数组 下 标 函 数 结合 起 来 ， 我 们 
就 可 以 得 出 被 访问 数据 的 区 域 。 在 本 例 中 ， 数 组 访问 Z [Li+10] 触及 的 
空间 是 {a | 10<a<20}， 而 数组 访问 Z [ij 触及 的 空间 是 {a | 0<a<10}。 


7) 数据 依赖 : 为 了 确定 被 处 理 的 循环 是 否 可 被 并 行 化 ， 我 们 需要 
知道 在 各 个 迭代 之 间 是 否 存在 数据 依赖 关系 。 在 这 个 例子 中 ， 我 们 首先 
考虑 该 循环 中 的 写 访问 之 间 的 依赖 关系 。 因 为 访问 函数 Z Li+10」 把 不 
同 迭 代 映 射 到 不 同 的 数组 位 置 ， 不 同和 迭代 疝 数 组 写 数据 的 顺序 上 不 存在 
依赖 关系 。 那 么 在 读 访 问 和 写 访问 之 间 存 在 依赖 关系 吗 ? 因为 只 有 
Z [10] ,，Z [11] ，...，Z [19] (通过 访问 Z [i+10」]) 被 写 ， 而 只 





























有 Z [0] ，Z [1] ，...，Z [9]j “通过 访问 Z [ij ) 被 读 ， 因 此 一 个 
读 访 问 和 一 个 写 访 问 的 相对 顺序 不 存在 依赖 关系 。 因 此 ， 这 个 循环 是 可 
并 行 化 的 。 也 束 是 说 ， 这 个 循环 的 各 个 迭代 独立 于 其 他 所 有 的 欠 代 ， 我 
们 可 以 并 行 地 执行 这 些 达 代 ， 或 者 按照 我 们 选择 的 任 音 顺序 执 行 这 些 达 
代 。 但 是 请 注意 ， 如 果 我 们 做 一 些 细微 的 改动 ， 比 如 把 循环 下 标的 上 
界 改 成 10 或 者 更 大 ， 那 么 就 会 存在 依赖 关系。 因为 数组 Z 的 人 东 些 元 系 会 
在 一 个 达 代 中 被 写 ， 然 后 在 10 个 达 代 之 后 说 读 。 在 那 种 情况 下 ， 这 个 循 
环 不 能 被 完全 地 并 行 化 ， 我 们 将 不 得 不 仔细 考虑 如 何在 处 理 器 之 间 分 配 
迭代 ， 以 及 如 何 对 达 代 进行 排序 。 


把 并 行 化 问题 写成 多 维 空 间 和 这 些 空间 之 间 的 仿 射 映射 使 得 我 们 可 
以 使 用 标准 的 数学 技术 来 解雇 并 行 化 和 局 部 性 优化 问题 。 比 如 ， 可 以 通 
过 使 用 Fourier-Motzkin 消 除 算法 消除 相应 的 变量 ， 找 出 被 访问 数据 的 区 
域 。 已 经 证 明 数 据 依赖 性 和 整数 线性 规划 问题 等 价 。 最 后 ， 寻 找 仿 射 分 
划 的 问题 则 对 应 于 对 一 组 线性 约束 求解 。 如 果 你 不 熟悉 这 些 概 念 也 不 用 
着 急 ， 因 为 从 11.3 节 开始 将 对 这 些 概 念 进行 解释 。 








11.2 ”和 矩阵 乘法 : 一 个 深入 的 例子 


我 们 将 使 用 一 个 较 大 的 例子 来 介绍 并 行 编译 圳 所 使 用 的 很 多 技术 。 
在 本 市 中 ， 我 们 将 研究 大 家 熟悉 的 矩阵 相 乘 算法 ， 以 说 明 即 使 对 一 个 简 
单 且 易 于 并 行 化 的 程序 进行 优化 也 不 是 轻而易举 的 事 。 我 们 将 看 到 代码 
改写 可 以 如 何 提高 数据 局 部 性 。 也 就 是 说 ， 和 选择 直接 运行 该 程序 相 
比 ， 处 理 器 只 需要 通过 少 得 多 的 《根据 不 同 的 体系 结构 ， 和 全 局 内 存 或 
其 他 处 理 喜 之 间 的 ) 通信 和 量 就 可 以 完成 它们 的 工作 。 我 们 也 将 讨论 如 何 
利用 可 以 存放 多 个 连续 数据 元 系 的 高 速 缓存 线 的 特性 来 改进 像 窍 阵 乘 法 
这 样 的 程序 的 运行 时 间 。 











11.2.1 和 矩阵 相 乘 算法 


在 图 11-5 中 ， 我 们 看 到 一 个 典型 的 矩阵 乘法 程序 趾 。 它 的 输入 是 两 
个 nxn 的 矩阵 X 和 Y， 它 产生 的 输出 存放 在 第 三 个 nxn 和 矩阵 2 中。 注意 ， 
Z， 即 矩阵 Z 在 第 i 行 第 j 列 上 的 元 素 将 变 成 琶 ” Xixyo 。 


for (i = 0; i < n; i++) 
for (j = 0; j < n; j++) { 
ZE = .0 


for (k = 0; k < n; k++) 
Z[i,j] Ss Zi + XLis EI*Y [JJ 





图 11-5 基本 的 适 阵 相 夹 算法 
图 11-5 中 的 代码 生成 m 个 结果 ， 每 个 结果 都 是 矩阵 X 的 某 行 和 和 矩阵 Y 
的 某 列 的 内 积 。 显 然 ， 和 矩阵 Z 的 每 一 个 元 素 的 计算 都 是 独立 的 ， 因 此 可 
以 并 行 执 行 。 
n 的 值 越 大 ， 算 法 访问 各 个 元 素 的 次 数 束 越 多 。 也 束 是 说 ， 这 三 个 





和 矩阵 中 有 3n“ 个 位 置 ， 但 是 这 个 算法 执行 吕 次 运算 ， 每 次 运算 把 X 的 一 个 
元 素 和 Y 的 一 个 元 素 相 乘 并 把 乘积 加 到 Z 的 一 个 元 素 中 。 因 此 算法 是 计 
算 密 集 型 的 ， 从 原则 上 来 讲 内 存 访问 不 应 该 成 为 瓶颈 。 


矩阵 乘法 的 串 行 执行 


我 们 首先 考虑 这 个 程序 在 单 处 理 器 上 顺序 运行 时 是 如 何 工作 的 。 最 
内 层 循环 读 写 Z 的 同一 个 元 妹 ， 并 使 用 X 的 一 行 和 Y 的 一 列 。 可 以 很 容易 
地 把 Z [i,j」 放 到 一 个 寄存 嚣 中， 不 需要 进行 内 存 访问 。 不 失 一 般 性 ， 
0 并 假设 c 是 高 速 缓存 线 中 的 数组 元 素 的 个 














图 11-6 给 出 了 当 我 们 执行 图 11-5 中 的 外 层 循环 的 一 个 迭代 时 的 访问 
模式 。 这 张 图 显示 的 是 第 一 个 迭代 的 情况 ， 此 时 i=0。 每 次 我 们 从 X 的 第 
一 行 的 一 个 元 素 移动 到 下 一 个 元 素 时 ， 都 会 访问 Y 的 某 一 列 中 的 各 个 元 
素 。 在 图 11-6 中 可 以 看 到 假设 的 将 各 个 矩阵 组 织 成 高 速 绥 存 线 的 方法 。 
也 就 是 说 ， 每 个 小 矩形 表示 了 一 个 存放 四 个 数组 元 素 的 高 速 缓存 线 〈( 即 
在 此 图 中 ，c=4 且 n=12) 。 











































X Y 
图 11-6 在 矩阵 乘法 中 的 数据 访问 模式 


对 X 的 访问 几乎 没有 增加 高 速 缓存 的 负担 。X 的 一 行 只 分 布 在 nc 个 
高 速 缓存 线 中 。 如 果 这 一 行 元 素 可 以 被 一 起 放 到 高 速 缓存 中 ， 对 于 一 个 
给 定 的 下 标 i 的 值 只 会 发 生 nyc 次 高 速 缓存 脱 靶 ， 而 整个 X 的 脱 靶 数量 在 
最 少 情况 下 为 nz/c (为 方便 起 见 ， 我 们 假设 n 可 以 被 整除 )。 





但 是 ， 当 使 用 X 的 一 行 时 ， 该 矩阵 相 乘 算法 逐 列 访问 Y 的 所 有 元 
素 。 也 就 是 说 ， 当 j=0 时 ， 内 层 循环 把 Y 的 整个 第 一 列 都 搬 到 了 高 速 缓存 
中 。 请 注意 ， 该 列 的 所 有 元 系 存 放 在 n 个 不 同 的 高 速 缓存 线 中 。 如 果 高 
速 缓存 大 到 《或 者 n 小 到 ) 可 以 存放 所 有 这 mn 个 高 速 缓存 线 ， 并 且 没 有 对 
高 速 缓存 的 其 他 使 用 使 得 茶 些 高 速 缓存 线 被 清除 出 高 速 缓存 ， 那 么 当 需 
要 Y 的 第 二 列 时 ， 对 应 于 j=0 的 列 仍然 在 高 速 缓存 中 。 在 此 情况 下 ， 在 
j=c 之 前 就 不 会 产生 n 次 对 Y 的 脱 靶 。 当 j=c 时 ， 我 们 需要 把 对 应 于 Y 的 另 
一 组 完全 不 同 的 高 速 缓存 线 载 入 到 高 速 缓存 中 。 因 此 ， 完 成 外 层 循 环 的 
第 一 个 欠 代 《〈 即 六 0) 所 磁 到 的 高 速 缓存 脱 靶 次 数 在 nyc 到 mn“ 之 间 。 有 具体 
i 0 0 
| 下 一 个 迭代 ， 


不 仅 如 此 ， 当 我 们 完成 =1，2，... 外 层 循环 时 ， 在 读 取 Y 的 元 素 时 
可 能 会 碰 到 更 多 的 高 速 缓存 脱 训 ， 也 可 能 完全 没有 脱 靶 。 如 果 高 速 缓存 
大 到 可 以 把 Y 的 所 有 n2/c 个 高 速 缓存 线 一 起 存放 在 高 速 缓存 中 ， 那 么 就 
不 会 再 磁 到 任何 脱 靶 。 因 此 ， 整 个 脱 靶 次 数 是 2n2c， 一 半 在 访问 X 时 发 
生 ， 另 一 半 在 访问 Y 时 发 生 。 但 是 ， 如 果 目 标 机 器 的 高 速 缓存 只 能 存放 
Y 的 一 列 ， 而 不 是 全 部 Y， 那 么 每 次 执行 外 层 循环 的 一 个 迭代 时 ， 我 们 
需要 把 Y 的 所 有 元 素 再 次 载 入 到 高 速 缓存 中 。 也 就 是 说 ， 高 速 缓存 脱 邯 
的 次 数 是 n*/ctn3/c， 其 中 的 第 一 项 是 访问 X 时 的 脱 革 次数 ， 而 第 三 项 是 
访问 Y 时 的 脱 训 次数。 在 最 坏 情 况 下 ， 如 果 我 们 甚至 不 能 把 Y 的 一 列 一 
起 存放 在 高 速 绥 存 中 ， 那 么 外 层 循环 的 每 次 从 代 都 有 m 个 高 速 缓存 脱 
节 ， 总 计 有 n/ct 双 次 脱 靶 。 

逐 行 并 行 化 

现在 我 们 考虑 可 以 如 何 使 用 多 个 处 理 器 (比如 说 p 个 ) 来 加 快 图 11- 
5 中 程序 的 执行 。 一 个 很 显然 的 并 行 化 矩阵 乘法 的 方法 是 把 Z 的 各 行 分 配 
给 不 同 的 处 理 器 。 每 个 处 理 器 负责 np 个 连续 的 行 “ 为 方便 起 见 ， 我 们 
假设 n 可 以 被 p 整 除 ) 。 通 过 这 样 分 配 工作 量 ， 每 个 处 理 器 只 需要 访问 算 
阵 X 和 Z 的 np 行 ， 但 是 要 访问 整个 Y 和 矩阵 。 每 个 处 理 器 将 计算 Z 的 n2/p 个 
元 素 。 为 了 计算 得 到 这 些 元 素 ， 它 需要 进行 np 次 乘 -加 法 运算 。 


这 样 做 之 后 ， 虽 然 计算 时 间 减 少 和 p 成 正比 ， 但 通信 开销 的 增长 实 
际 上 和 p 成 正比 。 也 就 是 说 ， 每 个 p 处 理 器 必须 读 取 n</p 个 X 的 元 素 ， 但 
是 要 读 取 Y 的 所 有 mw 个 元 素 。 必 须 被 加 载 到 这 p 个 处 理 费 的 高 速 缓存 中 的 
高 速 缓 存 线 的 总 数 最 少 为 n*/ct+pnY/c， 这 两 项 分 别 对 应 于 加 载 X 和 加 载 Y 





























副本 的 数量 。 当 p 的 值 趋 近 于 n 时 ， 计 算 时 间 变 为 O(n*) ， 但 是 通信 开 
销 为 O nm ) 。 也 就 是 说 ， 在 内 存 和 处 理 器 高 速 缓存 之 间 移 动 数据 的 总 
线 成 为 性 能 瓶颈 。 因 此 ， 对 于 给 定 的 数据 布局 而 言 ， 使 用 大 量 的 处 理 器 
来 平分 计算 量 实际 上 会 降低 计算 速度 ， 而 不 是 加 快 计算 速度 。 
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图 11-5 中 的 矩阵 相 乘 算法 说 明了 这 样 的 事实 : 即使 一 个 算法 可 能 复 
用 同样 的 数据 ， 它 的 数据 局 部 性 仍然 可 能 很 牵 。 要 使 得 一 次 数据 复 用 能 
够 在 高 速 缓存 中 命中 ， 它 就 必须 在 该 数据 被 转移 出 高 速 缓存 之 前 发 生 。 
在 本 例 中 ，m 个 乘 -加 法 把 对 矩阵 Y 中 同一 个 元 素 的 复 用 分 开 了 ， 因 此 数 
据 局 部 性 变 得 很 凑 。 实 际 上 ，n 次 运算 把 对 Y 中 同一 局 速 绥 存 线 内 的 数 
据 的 复 用 分 开 。 另 外 ， 在 一 个 多 处 理 器 系统 中 ， 只 有 当 数 据 被 同一 个 处 
理 堪 复 用 时 才 可 能 发 生 高 速 缓存 命中 事件 。 当 我 们 在 11.2.1 节 中 考 碟 一 
个 并 行 实现 时 ， 我 们 看 到 Y 的 元 系 必 须 被 每 一 个 处 理 絮 使 用 。 因 此 ， 对 
Y 的 复 用 并 没有 转化 为 局 部 性 。 


改变 数据 布局 


改善 一 个 程序 的 局 部 性 的 方法 之 一 是 改变 它 的 数据 结构 的 布局 。 比 
如 ， 把 Y 按 列 存放 将 提高 对 矩阵 Y 的 局 速 缓 存 线 的 复 用 。 这 个 方法 的 应 
用 范围 是 有 限 的 ， 因 为 同一 个 矩阵 通常 会 在 不 同 的 运算 中 使 用 。 如 宁 在 
为 一 个 算 阵 乘法 运算 中 Y 扮 演 了 X 的 角色 ， 那 么 又 会 因为 按 列 存放 而 损 
害 效 紊 ， 因 为 在 一 个 乘法 运算 中 的 第 一 个 矩阵 按 行 存放 比较 好 。 


分 块 


有 时 可 以 通过 改变 指令 执行 的 顺序 来 改善 数据 局 部 性 。 但 是 循环 互 
换 的 技术 并 不 能 提高 窍 阵 乘法 例 程 的 效率 。 假 设 把 这 个 例 程 改写 成 每 次 
生成 矩阵 Z 的 一 列 ， 而 不 是 一 行 。 也 就 是 说 ， 把 j 循 环 变 成 外 层 循环 而 i 循 
环 变 成 内 层 循环 。 假 设 这 些 矩 阵 仍旧 按 行 存放 ， 窍 阵 Y 就 有 比较 好 的 空 
间 局 部 性 和 时 间 局 部 性 ， 但 会 损害 矩阵 X 的 局 部 性 。 


分 块 〈blocking) 是 妨 一 种 对 循环 中 的 达 代 重新 排序 的 方法 ， 它 可 
以 大 大 提高 一 个 程序 的 局 部 性 。 我 们 不 再 一 次 计算 结果 矩阵 的 一 行 或 者 
一 列 ， 而 是 按照 图 11-7 中 所 示 把 矩阵 分 割 成 为 子 算 阵 ， 或 者 说 块 。 然 





























后 ， 我 们 对 运算 重新 排序 ， 使 得 整个 块 只 在 一 人 小段 时 间 内 使 用 。 通 钟情 
况 下 ， 这 些 块 是 边 长 为 B 的 正方 形 。 如 果 B 整 除 "， 那 么 所 有 的 块 都 是 正 
方形 。 如 果 B 不 能 整除 n， 那 么 在 矩阵 下 面 或 右面 的 边 上 的 块 的 一 条 或 者 
两 条 边 的 长 度 小 于 B。 
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图 11-7 一 个 被 分 割 成 边 长 为 B 的 块 的 矩阵 


图 11-8 显 示 了 基本 和 矩阵 相 乘 算法 的 一 个 版 本 。 在 这 个 版 本 中 ， 全 部 
三 个 矩阵 被 划分 为 边 长 为 B 的 正方 形 。 和 图 11-5 中 一 样 ， 假 设 Z 已 经 被 初 
始 化 为 全 0 矩阵。 我 们 假设 B 整 除 n， 如 果 不 是 这 样 的 话 ， 就 需要 把 第 
(4) 行 中 的 上 限 修改 为 min 〈ii+ Bin) ， 并 对 第 5 和 6 行 做 类 似 的 修改 。 





1) for (ii = 0; ii < n; ii = ii+B) 
for (jj = 0; jj < ni jj = jj+B) 
for (kk = 0; kk < n; kk = kk+B) 
for (i = ii; i < ii+B; i++) 


for (j = jj; j < jj+B; j++) 
for (k = kk; k < kk+B; k++) 
Z[i,j] = 2Z[i,j] + X[i,k]*Y[k,j]; 





图 11-8 基于 分 块 技术 的 矩阵 乘法 


外 面 的 三 层 循 环 ， 即 第 1 行 到 第 3 行 ， 使 用 下 标 变 量 、jj 和 kk。 这 些 














变量 的 增 量 总 是 B， 因 此 它们 总 是 表示 了 某 个 块 的 左面 或 上 面 的 边 。 对 
于 固定 的 说、jj、kk 的 值 ， 第 4 行 到 第 7 行 计 算 了 以 X [iikk] 和 Y [kkjjj] 
为 左上 角 的 两 个 块 的 乘积 并 加 到 以 Z [ii,jj」 为 左上 角 的 块 中 去 。 


当 不 能 够 把 X、Y、2Z 一 起 放 到 高 速 缓存 中 时 ， 如 果 我 们 选择 了 适当 
的 B 值 ， 和 基本 算法 相 比 ， 我 们 可 以 明显 地 降低 高 速 缓 存 脱 靶 的 数量 。 
选择 B 使 得 可 以 把 每 个 矩阵 的 各 个 块 一 起 放 到 缓存 中 去 。 因 为 上 面 的 算 
法 中 各 个 循环 的 顺序 ， 我 们 实际 上 只 需要 把 Z 中 的 每 个 块 放 到 高 速 缓存 
中 一 次 就 可 以 了 。 因 此 《〈 像 我 们 在 11.2.1 节 中 对 基本 算法 所 作 的 分 析 那 
样 ) 我 们 将 不 需要 计算 因为 Z 而 产生 的 高 速 缓存 脱 靶 。 


把 X 或 Y 的 一 个 块 载 入 到 高 速 缓存 需要 B4c 次 高 速 绥 存 脱 靶 。 请 记 
住 ，c 是 一 个 高 速 缓存 线 中 的 元 素 的 个 数 。 但 是 ， 对 于 确定 的 分 别 来 自 X 
和 Y 的 块 ， 我 们 在 图 11-8 的 第 4 行 到 第 7 行 中 进行 了 B3 次 乘 -加 法 运算 。 
为 整个 矩阵 乘法 需要 n3 次 乘 -加 法 运算 ， 所 以 把 两 个 块 加载 进 缓存 的 次 
数 是 n3/ B3。 因 为 每 次 加 载 一 个 块 时 会 碰 到 2B?/c 次 高 速 缓存 脱 计 ， 所 以 
总 的 缓存 脱 靶 数量 是 2n3/Bc。 


把 这 个 数字 2n3/Bc 和 11.2.1 节 中 给 出 的 估计 值 相 比 是 很 有 意思 的 。 
在 那 一 节 中 ， 我 们 说 ， 如 果 整 个 矩阵 可 以 一 起 放 到 高 速 缓存 中 的 话 ， 就 
将 出 现 O 〈n2c) 次 高 速 缓存 脱 丢 。 然 而 ， 在 那 种 情况 下 ， 我 们 可 以 令 
B=n， 即 把 每 个 矩阵 当成 一 个 块 。 我 们 仍然 可 以 得 到 前 面 估 算 的 
O (Cn2/c) 次 高 速 缓存 脱 鞭 。 另 一 方面 ， 我 们 观察 到 如 果 不 能 把 整个 矩 
阵 放 到 高 速 缓存 中 ， 就 需要 O (n3/c) 次 高 速 缓存 脱 靶 ， 甚 至 O (na3) 次 
脱 靶 。 在 这 种 情况 下 ， 假 设 我 们 可 以 选择 相当 大 的 B 值 〈 比 如 B 可 以 是 
200， 此 时 仍然 可 以 把 三 个 8 字 节 数字 的 块 放 到 一 个 LIMB 的 高 速 缓存 
中 ) ， 在 矩阵 乘法 中 使 用 分 块 技术 有 很 大 的 优越 性 。 


分 块 技术 可 以 被 应 用 到 内 存 层次 结构 的 各 个 层次 上 。 比 如 ， 我 们 可 
能 希望 通过 把 一 个 2x2 乍 阵 乘法 的 运算 分 量 都 放 到 寄存 器 中 ， 以 优化 对 
寄存 器 的 使 用 。 对 于 不 同 层次 的 高 速 缓存 和 物理 内 存 ， 我 们 使 用 逐渐 增 
大 的 分 鼎 尺 寸 。 


类 似 地 ， 我 们 可 以 把 各 个 块 分 布 到 不 同 的 处 理 器 上 ， 以 便 使 数据 流 
量 达 到 最 小 。 实 验 显 示 ， 这 样 的 优化 在 单 处 理 器 情况 下 的 性 能 加 速 比 可 
而 在 多 处 理 占 系统 上 的 加 速 比 几乎 和 所 使 用 的 处 理 占 数量 成 
线性 关系 。 








基于 块 的 矩阵 乘法 的 男 一 个 视点 


我 们 可 以 想象 图 11-8 中 的 矩阵 Xx、Y、Z 并 不 是 nxn 的 浮 点 数 的 算 
阵 ， 而 是 (n/B)〉x (nm/B)〉 的 和 矩阵， 而 这 个 矩阵 的 元 素 本 映 勾 是 BxB 
的 浮 点 数 的 和 矩阵。 那么 ， 图 11-8 中 的 第 1 行 到 第 3 行 就 像 是 图 11-5 中 的 





基本 算法 的 三 个 循环 ， 但 是 它们 处 理 的 矩阵 的 大 小 是 mn/B， 而 不 是 n。 
我 们 可 以 把 图 11-8 的 第 4 行 到 第 7 行 看 作 是 图 11-5 中 的 单个 乘 -加 法 运算 
的 实现 。 请 注意 ， 在 这 个 运算 中 的 单个 乘法 步 又 对 应 于 一 个 矩阵 乘法 
步骤 ， 使 用 了 图 11-5 中 对 元 素 为 序 点 数 的 两 个 矩阵 相 乘 的 基本 算法 。 
窍 阵 加 法 就 是 各 个 元 素 上 的 浮 点 数 加 法 。 








11.2.3 ”高 速 缓存 干扰 





遗憾 的 是 ， 对 于 高 速 缓存 的 利用 还 有 一 些 问 题 要 解决 。 大 部 分 高 速 
绥 存 不 是 完全 结合 的 〈 见 7.4.2 节 ) 。 在 一 个 直接 映射 的 高 速 缓存 中 ， 如 
果 n 是 高 速 缓存 大 小 的 倍数 ， 那 么 一 个 nxn 的 托 阵 的 同一 行 中 的 各 个 元 素 
将 竞争 同样 的 高 速 缓存 位 置 。 在 那 种 情况 下 ， 把 某 列 的 第 二 个 元 素 加 载 
进 高 速 缓存 将 会 把 第 一 个 元 素 的 高 速 缓存 线 挤 出 高 速 缓存 。 即 使 高 速 组 
存 有 能 力 同 时 存放 所 有 这 些 高 速 缓存 线 ， 这 样 的 情况 仍然 会 发 生 。 这 种 
情况 被 称 为 高 速 缓存 干扰 (cache interference) 。 


对 于 这 个 问题 有 多 种 解决 方法 。 第 一 个 方法 是 一 元 永 锡 地 重新 排列 
数据 ， 使 得 被 访问 的 数据 放 在 连续 的 数据 位 置 上 。 第 二 个 方法 是 把 nxn 
的 数组 放 在 一 个 较 大 的 mxn 的 数组 中 ， 我 们 可 以 选择 适当 的 m 来 最 小 化 
干扰 问题 。 第 三 种 方法 是 选择 一 个 可 以 保证 避免 干扰 的 分 块 大 小 。 








11.2.4 11.2 节 的 练习 


练习 11.2.1: 和 图 11-5 中 的 代码 不 同 ， 图 11-8 中 的 基于 块 的 矩阵 相 
乘 算法 中 不 包含 把 矩阵 Z 的 所 有 元 素 清 零 的 初始 化 部 分 。 在 图 11-8 中 加 
入 把 Z 初 始 化 为 全 零 矩 阵 的 步骤 。 


11.3 ”和 迭代 空间 


丁 的 研究 动机 是 充分 利用 11.2 节 中 提 到 的 优化 技术 。 对 于 一 些 简 
单 情况 ， 比 如 和 矩阵 乘法 ， 这 些 搁 术 是 相当 简单 明了 的 。 对 于 更 加 一 般 的 
情况 ， 同 样 的 技术 仍然 可 用 ， 但 此 时 它们 的 应 用 就 远 没 有 那么 直观 了 。 
然而 ， 通 过 应 用 一 坚 线性 代数 技术 ， 我 们 可 以 使 得 这 些 技术 能 够 完成 对 
一 般 情 况 的 优化 。 


11.1.5 节 中 讨论 过 ， 我 们 的 转换 模型 中 有 三 种 空间 : 友 代 空间 、 数 
据 空 间 和 处 理 器 空间 。 这 里 我 们 首先 从 旭 代 空间 开始 。 一 个 循环 验 套 结 
构 的 欠 代 空间 被 定义 为 该 拒 套 结构 中 所 有 循环 下 标 变量 取 值 的 组 合 。 


和 图 11-5 中 的 矩阵 乘法 的 例子 一 样 ， 达 代 空 间 第 第 是 沧 形 的 。 在 那 
种 情况 下 ， 每 个 怠 套 中 的 循环 具有 下 界 0 和 上 界 n-1。 但 是 ， 在 更 复杂 但 
相当 现实 的 循环 馈 套 结构 中 ， 一 个 循环 下 标的 上 界 和 下 界 可 能 依赖 于 较 
外 层 循环 的 下 标 值 。 我 们 很 快 会 看 到 这 样 的 一 个 例子 。 








11.3.1 ”从 循环 散 套 结构 中 构建 迭代 空间 


让 我 们 首先 描述 一 下 即将 学 习 的 技术 能 够 处 理 哪 些 类 型 的 循环 氨 套 
结构 。 每 个 循环 有 一 个 唯一 的 循环 下 标 ， 我 们 假设 每 次 达 代 这 个 下 标 增 
加 1。 这 个 假设 并 没有 失去 一 般 性 ， 因 为 如 末 每 次 迭代 的 增 量 是 大 于 1 的 
整数 c， 那 么 总 是 可 以 把 对 下 标的 使 用 蔡 代 为 tita， 其 中 a 是 茶 个 正 或 负 
的 和 常数， 然后 循环 中 的 每 次 达 代 将 i 加 1。 这 个 循环 的 上 下 界 必须 写成 其 
外 层 循环 的 下 标的 仿 射 表达 式 。 


考虑 下 面 的 循环 


for (i = 2; i <= 100; i = i+3) 
ZLij = 0; 





该 循环 的 每 轮 运行 把 循环 下 标 i 加 3， 它 的 效果 是 把 各 个 数组 元 系 
ZL[2],，Z[5] ,ZzZ1L8]，...， 2Z198] 设置 为 0。 我 们 可 以 使 用 下 面 


的 循环 来 得 到 同样 的 效果 : 


for (j = 0; j <= 32; j++) 
Z[3*j+2] = 0; 


也 就 是 说 ， 我 们 用 3j+2 蔡 代 了 i。 下 界 i=2 变 成 了 j=0《〈 只 需要 求解 方程 
3j+2=2 就 可 得 到 j 的 值 ) ， 而 上 界 i<100 变 成 了 j<32 (将 3j+2<100 简 化 可 
得 js32.67， 又 因为 j 必 须 是 整数 ， 所 以 要 舍弃 小 数 部 分 ) 。 


通常 情况 下 ， 我 们 将 在 循环 杠 套 结构 中 使 用 for 循 环 结构 。 对 于 一 个 
while 循 环 或 者 repeat 循 环 ， 如 果 存 在 一 个 下 标 以 及 该 下 标的 上 下 界 ， 那 
么 它 就 可 以 被 蔡 换 为 一 个 for 循 环 。 图 11-9a 中 的 循环 就 是 这 样 的 情况 。 
一 个 像 for (Ci=6; i<1600; i++) 这 样 的 for 循 环 可 以 达到 同样 的 目标 。 


= 0» i = 0; 
while (i<100) { while (1) { 


< 一 些 和 i 无 关 的 语句 > < 一 些 语句 > 
hE i+1; 下 二 i+1s 


} } 
a) 一 个 具有 明显 界限 的 while 循 环 b) 不 清楚 这 个 循环 在 什么 时 候 或 是 否 会 终止 








i = 0; 
while (i<n) { 
< 一 些 与 i 及 n 无 关 的 语句 > 


i = i+l; 


上 
c) 我 们 不 知道 的 值 ,因此 我 们 不 知道 这 个 循环 什么 时 候 终止 
图 11-9 ”一 些 while 循 环 





但 是 有 些 while 循 环 或 repeat 循 环 没有 明显 的 界限 。 比 如 ， 图 11-9b 中 
的 例子 可 能 会 中 止 ， 也 可 能 不 会 终止 ， 但 是 没有 办 法 指出 在 未 知 的 循环 
体 中 ji 满足 什么 条 件 时 程序 会 跳出 该 循环 。 图 11-9c 是 另 一 个 会 出 现 问题 
的 情况 。 例 如 ， 变 量 n 可 能 是 一 个 函数 的 参数 。 我 们 知道 循环 迭代 n 次 ， 
但 是 在 编译 时 刻 我 们 不 知道 n 的 值 是 什么 。 实 际 上 ， 我 们 可 能 期 望 该 循 
环 在 不 同 的 执行 中 迭代 的 次 数 不 同 。 在 图 11-9b 和 图 11-9c 这 样 的 情况 
下 ， 我 们 必须 把 的 上 界 当 作 无 限 来 处 理 。 


一 个 深度 为 d 的 循环 馈 套 结构 可 以 被 建 模 为 一 个 d 维 空间 。 空 间 的 各 
个 维 是 有 序 的 ， 第 k 维 表示 该 艇 套 结构 中 从 最 外 层 循 环 起 的 第 k 个 循环 。 
这 个 空间 中 的 一 个 点 x1,X2,…,Xq) 表示 所 有 这 些 循环 下 标的 值 ， 最 外 














层 循环 下 标的 值 是 xi， 第 二 个 循环 下 标的 值 是 xm， 以 此 类 推 。 最 内 层 循 
环 下 标的 值 是 xu。 


但 并 不 是 这 个 空间 中 的 每 个 点 都 代表 了 一 个 在 该 循环 藤 套 结构 执行 
时 实际 出 现 的 下 标 取 值 组 合 。 作 为 外 层 循环 下 标的 一 个 仿 射 函数 ， 每 个 
循环 的 上 下 界 都 定义 了 一 个 不 等 式 ， 它 把 空间 分 成 两 半 : 对 应 于 循环 迭 
代 的 部 分 ( 即 正 的 半空 间 〉 和 不 对 应 于 迭代 的 部 分 〈 即 负 的 半空 间 ) 。 
所 有 线性 不 等 式 的 交 ( 人 远 辑 AND) 表示 这 些 正 的 半空 间 的 交集 ， 访 交集 
定义 了 一 个 凸 多 面体 〈convex polyhedron) 。 我 们 把 这 个 多 面体 称 为 这 
个 循环 幅 套 结构 的 迭代 空间 (iteration space) 。 一 个 凸 多 面体 具有 以 下 
性 质 : 如 果 两 个 点 在 该 多 面体 内 ， 那 么 它们 之 间 的 连 线 上 的 所 有 点 都 在 
该 多 面体 内 。 多 面体 使 用 循环 界限 不 等 式 描述 。 循 环 的 每 个 迭代 都 可 以 
由 该 多 面体 中 的 具有 整数 坐标 的 点 表示 。 反 过 来 ， 在 多 面体 内 的 每 个 整 
数 点 都 代表 了 该 循环 仍 套 结构 在 某 个 时 候 执行 的 一 个 迭代 。 


考虑 图 11-10 中 的 二 维 循环 代 套 结构 。 我 们 可 以 使 用 图 11-11 中 
显示 的 二 维 多 面 体 对 这 个 深度 为 2 的 循环 和 藤 套 结构 建 模 。 图 中 的 两 个 轴 
表示 循环 下 标 i 利 j 的 值 。 下 标 i 订 以 取 0 一 5 之 间 的 任何 整数 值 ， 下 标 j 可 以 
取 满 足 i<j<7 的 任何 整数 值 。 





jor (1 0 1 we By Mbt) 
for (1 Ls jj <= 7 


Z[i,i] = 0; 





图 11-10 ”一 个 二 维 循环 诅 套 结构 





图 11-11 例 11.6 的 迭代 空间 


迭代 空间 和 数组 访问 


在 图 11-10 的 代码 中 ， 送 代 空 间 也 古 数组 Z 中 被 该 代码 访问 到 的 部 
分 。 这 种 类 型 的 访问 是 很 常见 的 ， 它 们 的 数组 下 标 就 是 按 某 种 顺 友 排 


列 的 循环 下 标 。 但 是 ， 我 们 不 应 该 把 迭代 空间 和 数据 空间 相 混 消 。 和 迭 
代 空 间 的 各 个 维度 是 各 循环 下 标 。 假 设 我 们 在 图 11-10 的 代码 中 使 用 
一 个 类 似 于 Z [2*i,ji+tj」 的 数组 访问 来 蔡 换 Z [ji ， 那 么 欠 代 空间 和 
数据 空间 之 间 的 区 别 就 很 明显 了 。 











11.3.2 ”循环 钥 套 结构 的 执行 顺序 


一 个 循环 钥 套 结构 的 顺序 执行 按照 上 升 的 词典 顺序 逐个 执行 它 的 达 
代 空 间 中 的 各 个 达 代 。 一 个 向 量 i=|[ io, 计 ,… ,i 按照 词典 排序 小 于 男 


一 个 向 量 六 =| 鹿 , 放 ,…, 记 J-， 记 为 i<iY， 当 且 仪 当 存在 一 个 m<min (n,n 
') 使 得 [ 记 , 计 ,… ,i =|[ 训 , 计 ,i 并 且 i41 Rd 请 注意 ， ma 可 以 
等 于 0， 实 际 上 这 种 情况 很 常见 。 


把 i 当 作 外 层 循 环 ， 例 11.6 中 的 循环 侍 套 结构 的 迭代 按照 图 11- 
12 所 示 的 顺序 执行 。 
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图 11-12 ”图 11-10 中 的 循环 吝 套 的 迭代 的 执行 顺序 


11.3.3 ”不等式 组 的 矩阵 表示 方法 


在 一 个 深度 为 d 的 循环 藤 套 中 的 迭代 可 以 用 数学 方式 表示 为 
{i 在 Zi 中 | Bit+b>0} (11.1) 
其 中 : 


1) ZZ 按照 数学 惯例 ) 表示 整数 的 集合 一 一 包括 正 整 数 、 负 整数 和 


位 


2) B 是 一 个 dxd 的 整数 矩阵 。 
3) b 是 一 个 长 度 为 4 的 整数 回 量 。 
4) 0 是 一 个 由 d 个 零 组 成 的 向 量 。 
我 们 可 以 把 例 11.6 中 的 不 等 式 写成 图 11-13 中 的 形式 。 也 就 是 


说 ，i 的 范围 用 i>0 和 is5 表 示 ，j 的 范围 用 j>i 和 js<7 表 示 。 我 们 要 求 这 些 不 
等 式 都 能 写成 ui+vj+wz0 的 形式 。 然 后 ， [uvj] 变 成 了 不 等 式 〈11.1) 





中 和 矩阵 B 的 一 行 ，w 变 成 向 量 b 中 的 相应 元 素 。 比 如 ， 这 0 就 是 这 种 形 
式 ， 其 中 u=1，v=0，w=0。 这 个 不 等 式 用 图 11-13 中 B 的 第 一 行 和 b 的 顶 


端 元 素 表 示 。 
] 0 0 0 
下 三 
0 -1 7 0 
图 11-13 撼 阵 向 量 乘 法 和 一 个 向 量 的 不 等 式 ， 表 示 用 于 定义 一 个 选 代 空 间 的 不 等 式 组 
看 另 一 个 例子 ， 不 等 式 i<5 等 价 于 〈-1) 计 (0) j+5>z0， 它 由 图 11- 
13 中 B 和 Pb 的 第 二 行 表 示 。 另 外 ，j>i 变 成 了 〈-1) it (1) j+0>0， 由 第 三 


行 表示 。 最 后 ，j<7 变 成 (0) 计 (-1) j+7>0， 由 图 中 和 矩阵 和 向 量 的 最 后 
一 行 表 示 。 


处 理 不 等 式 


为 了 像 例 11.8 中 那样 转换 不 等 式 ， 我 们 可 以 像 处 理 等 式 一 样 进行 
转换 。 在 不 等 式 两 边 都 增加 或 减少 同样 的 值 ， 或 将 两 边 都 乘 以 


同样 的 常量 。 我 们 必须 记 住 的 唯一 特殊 规则 是 ， 当 我 们 把 不 等 式 两 边 
都 乘 以 一 个 负数 的 时 候 ， 必须 改变 不 等 号 的 方向 。 因 此 ，i<5 乘 以 -1 
有 给 不 等 式 两 边 都 加 上 5 得 到 -i+5>0， 实 际 上 就 是 图 11-13 





11.3.4 混合 使 用 符号 常量 


有 时 我 们 需要 对 涉及 某 些 变量 的 循环 肉 套 结构 进行 优化 ， 这 些 变量 
对 于 该 租 套 中 的 所 有 循环 都 是 循环 不 变 的 。 我 们 把 这 样 的 变量 称 为 符号 
常量 《symbolic constant) ， 但 是 为 了 描述 一 个 迭代 空间 的 边界 ， 我 们 
需要 把 它们 当 作 变 量 进行 处 理 ， 并 在 循环 下 标 变量 组 成 的 向 量 中 为 它们 
创建 一 个 条 目 。 这 个 向 量 就 是 通用 不 等 式 (11.1)〉 中 的 疝 量 i。 

















考虑 下 面 的 简单 循环 : 
Et (i = 和 
} 


这 个 循环 定义 了 一 个 一 维 的 达 代 空间 ， 下 标 变 量 是 1， 界限 是 0 和 i<n。 
因为 n 是 一 个 符号 常量 ， 我 们 需要 把 它 当 作 一 个 变量 包括 进来 ， 得 到 一 
个 循环 下 标的 同 量 [in」。 按 照 算 阵 - 癌 量 的 形式 ， 这 个 碗 代 空 间 被 定 


和 在 Z 中 | [ > []] 


请 注意 ， 虽 然 数组 下 标的 癌 量具 有 两 个 维度 ， 但 它们 中 只 有 表示 i 
的 第 一 维 是 输出 部 分 ， 即 迭代 空间 的 点 集 。 





11.3.5 ”控制 执行 的 顺序 


从 一 个 循环 体 的 上 下 界 中 抽取 到 的 线性 不 等 式 定 义 了 一 个 凸 多 面体 
上 的 迭 代 的 集合 。 这 个 表示 方法 并 没有 假定 在 迭代 空间 中 的 友 代 之 间 的 
任何 执行 顺序 。 原 程序 在 途 代 之 上 强加 了 一 个 串 行 顺序 ， 该 顺序 惑 是 按 
照 从 外 到 内 方式 排列 的 循环 下 标 变量 取 值 的 词典 排序 。 但 是 ， 只 要 遵守 
它们 之 间 的 数据 依赖 关系 〈 即 循环 馈 僚 结构 中 不 同 赋值 语句 所 执行 的 对 
任 一 数组 元 系 的 写 / 读 操作 的 顺序 没有 改变 ) ， 残 可 以 按照 任何 顺序 执 
行 该 空间 中 的 欠 代 。 


如 何 选择 一 个 既 齐 守 数 据 依 赖 关 系 ， 又 能 优化 数据 局 部 性 和 并 行 性 
的 顺序 古 很 困难 的 问题 ， 我 们 舟 后 将 从 11.7 市 开始 处 理 这 个 问题 。 这 里 
我 们 假设 已 经 有 了 一 个 合法 且 令 人 满意 的 排序 ， 说 明 如 何 生成 体 守 这 个 
顺序 的 代码 。 首 先 让 我 们 讨论 例 11.6 中 的 男 一 个 排序 。 


在 例 11.6 的 程序 中 ， 和 迭代 之 间 没 有 数据 依赖 关系 。 因 此 ， 可 
站 用 单行 或 者 并 行 的 方式 执行 这 些 迭 代 。 因 为 在 此 代码 中 迭代 [jj] 访 








问 了 元 素 Z [j,i] ， 原 程序 按照 图 11-14a 中 的 顺序 访问 数组 。 为 了 提高 空 
a 0 
近 元 素 。 












































2Z[0,0 0,0 

2[1,0],， 2[1,1] 0,1]， [1,1] 

2[2,0],， 2[2,1],， 2[2,2] [0,2]， [1,2]， [2,2] 

2[3,0],， 2[3,1],， 2[3,2], 2[3,3] 0,3]， [1,3]， [2,3]， [3,3] 

2[4,0],， 2[4,1],，2(4,2]，2[4,3]，Z2[4,4 0, 和 ， ,各 ，[2, 各 ，[3, 相 ，[4, 机 

2[5,0],， 2[5,1], 2[5,2], 2[5,3], 2[5,4],， 2[5,5] 0,5],， [1,5], [2,5],， [3,5],， [4,5], [5,5] 

2[6,0], 2[6,1], 21(6,2], 2[6,3],，2[6, 和 ，2[6,5] 0,6],， [1,6],， [2,6]，[3,6]， [4,6]，[5,9] 

2[7,0], 2[7,1], 2[7,2], 2[7,3], 2[7,4,，2[7,] 0,7],. [LT] ,271; 377]s [SH 
b) 更 好 的 访问 顺序 c) 更 好 的 迭代 顺序 


图 11-14 ”一 个 循环 蛤 套 结 构 的 访问 和 和 迭代 的 重新 排序 


如 琳 我 们 按照 图 11-14c 中 的 顺序 执行 循环 的 欠 代 ， 就 能 够 得 到 上 面 
的 访问 模式 。 也 就 是 说 ， 我 们 垂直 地 《而 不 是 水 平地 ) 扫描 图 11-11 中 
的 迭代 空间 ， 因 此 j 变 成 了 外 层 循环 的 下 标 。 按 照 上 面 的 顺序 执行 这 些 
迭代 的 代码 是 


for (j = 0; j <= 7; j++) 
for (i = 0; i <= min(5,j); i++) 
2Z[j,i] = 0; 


给 定 一 个 凸 多 面体 和 一 个 下 标 变量 的 排序 ， 我 们 该 如 何 生成 循环 的 
界限 ， 使 得 循环 能 够 按照 这 些 变 量 的 词典 排序 扫描 这 个 迭代 空间 ? 在 上 
面 的 例子 中 ， 约 束 i<j 在 原 程序 中 是 作为 内 层 循环 下 标 j 的 下 界 出 现 的 ， 
但 是 在 转换 得 到 的 程序 中 它 作 为 内 层 循环 下 标 ij 的 上 界 出 现 。 


最 外 层 循 环 的 界限 是 用 符号 常量 和 常量 的 线性 组 合 来 表示 的 ， 它 定 
义 了 该 循环 下 标的 全 部 取 值 的 范围 。 内 层 循 环 的 下 标 变量 的 界限 用 较 外 
层 循环 的 下 标 变 量 、 符 号 冲 量 和 和 常量 的 线性 组 合 来 表示 。 对 于 给 定 的 较 
人 
范围 。 


投 
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从 几何 学 的 角度 来 讲 ， 我 们 可 以 把 表示 迭代 空间 的 凸 多 面体 投影 

(projectiog) 到 该 空间 中 对 应 于 较 外 层 循环 的 维度 上 ， 以 得 到 一 下 
为 2 的 循环 内 和 套 结构 中 外 层 循环 下 标 变 量 的 循环 界限 。 直 观 地 讲 ， 
多 面体 在 一 个 较 低 维度 空间 的 投影 束 是 该 物体 在 这 个 空间 中 的 影子 。 国 
11-11 中 的 二 维 迭 代 空 间 到 i 轴 上 的 投影 是 从 0 到 5 的 垂直 线 ; 而 到 j 轴 的 投 
影 是 从 0 到 7 的 水 平 线 。 当 我 们 把 一 个 3 维 物 体 沿 着 z 轴 投 晤 -个 二 维 的 
x-y 的 平面 上 时 ， 我 们 消除 变量 z， 失 去 了 各 个 点 的 高 度 信 息 ， 而 仅仅 记 
录 下 该 物体 在 x-y 平 面 上 的 二 维 履 盖 区 域 。 


循环 界限 生成 只 是 投影 的 多 种 用 途 之 一 。 投 影 的 正式 定义 如 下 。 令 
$ 为 一 个 n 维 多 面体 。S 到 它 的 前 m 个 维度 的 投影 是 满足 如 下 条 件 的 点 
(XT) > 在 X eX 使 得 回 量 [X23] 在 8 中 8 我 
们 可 以 使 用 Fourier-Motzkin 消 除 算法 来 计算 投影 。 下 面 介 绍 该 算法 。 
Fourier-Motzkin 消 除 算法 。 


输入 : 一 个 和 市 有 变量 x1,x2,…,Xn 的 多 面体 S$。 也 就 是 说 ，S 是 关于 变 
量 Xi 的 一 组 线性 约束 。 一 个 给 定 的 变量 xm 是 被 指定 需要 消除 的 变量 。 


输出 : 一 个 关于 变量 zX2 .TD 《 即 除 z 之 外 的 所 有 S$ 的 
变量 ) 的 多 面体 S'。S' 是 $ 到 除 第 m 个 维度 之 外 的 所 有 维度 的 投影 。 


方法 : 令 C 是 S$ 中 所 有 涉及 xm 的 约束 的 集合 。 执 行 下 列 步骤 : 
1) 对 于 C 中 关于 xm 的 每 一 对 上 卉 和 下 界 ， 比 如 












































L<C1Xnm 

CoXm<U 
建立 一 个 新 的 约束 

C2L<c1U 


请 注意 ，cl 和 co 是 整数 ， 但 L 和 U 可 能 是 天 于 除 xm 之 外 的 其 他 变量 的 


2) 如 果 整 数 cl 和 cz 有 公 因 于， 将 上 面 约束 的 两 边 都 除 以 这 个 因子 。 


是 如 果 新 的 约束 是 不 可 满足 的 ， 那 么 S 无 解 ， 即 多 面体 S 和 S' 都 是 
空 的 空间 。 


4) S' 是 约束 集合 S-C 加 上 在 第 2 步 中 生成 的 所 有 约束 。 


顺便 说 一 下 ， 如 果 xm 具 有 u 个 下 界 和 v 个 上 界 ， 消 除 xm 了 最 多 会 产生 uv 
个 不 等 式 。 


在 算法 11.11 的 第 一 步 中 引入 的 约束 对 应 于 约束 集合 C 所 一 涵 的 对 系 
统 中 其 余 变量 的 约束 。 因 此 ，S' 中 有 一 个 解 的 充 要 条 件 是 S$ 中 至 少 有 一 
个 对 应 的 解 。 给 定 S' 中 的 一 个 解 ， 把 约束 集合 C 中 除了 x 之 外 的 所 有 变 
量 蔡 换 为 它们 在 这 个 解 中 的 实际 取 值 ， 就 可 以 得 到 x， 的 取 值 范围 。 


考虑 定义 了 图 11-11 中 的 迭代 空间 的 不 等 式 组 。 假 设 我 们 希望 
Fourier-Motzkin 消 除 算法 来 消除 维度， 从 而 把 这 个 二 维 空间 投影 到 
j 维 度 上 。 存 在 一 个 i 的 下 界 0<si 和 两 个 上 界 i<j 和 is5。 这 可 以 生成 两 个 约 
束 0<j 和 0<5。 后 一 个 约束 是 永 真 式 ， 可 以 忽略 。 前 一 个 约束 给 出 了 j 的 下 
界 ，j 的 上 界 就 是 原来 的 上 界 j<7。 


循环 界限 的 生成 


既然 我 们 已 经 定义 了 Fourier-Motzkin 消 除 算 法 ， 生 成 循环 界限 来 遍 
历 一 个 凸 多 面体 的 算法 〈 算 法 11.13) 就 很 容易 得 到 了 。 我 们 按照 从 最 
内 层 到 最 外 层 循 环 的 顺序 计算 循环 界限 。 所 有 涉及 最 内 层 循环 下 标 变量 
的 不 等 式 都 被 改写 成 为 该 变量 的 下 上 界 的 形式 。 然 后 ， 我 们 通过 投影 消 
除 代 表 了 最 内 层 循 环 的 维度 ， 得 到 减少 了 一 个 维度 的 多 面体 。 我 们 重复 
这 个 过 程 ， 直 到 找 出 所 有 循环 下 标 变 量 的 界限 。 


给 定 一 组 变量 的 顺序 ， 计 算 这 些 变量 的 界限 。 
输入 : 一 个 在 变量 vuvz ,wa 之 上 的 凸 多 面体 $。 


输出 : 每 个 变量 vi 的 下 界 Li 和 上 界 Uij， 这 些 界 限 只 使 用 排 在 vi 之 前 























方法 : 该 算法 在 图 11-15 中 描述 。 


Sn = S; /* 使 用 算法 11.11 来 计算 循环 界限 */ 
for (1=n;i>1;i——){ 
Lv = 二 Si 中 wi 的 所 有 下 界 ; 
U, = Si 中 vi 的 所 有 上 界 ; 
Si-1 = 将 算法 11.11 应 用 于 消除 约束 集合 5S; 中 的 vi 后 得 到 
的 约束 集合 ; 


} 
/* 消除 元 余 性 */ 
总 = 


for (i=1;i<n;i+t++){ 
消除 所 有 由 5' 蕴涵 的 二, 和 DZ 中 的 界限 ; 
把 L,, 和 U, 中 其 余 关于 的 约束 加 到 ,5' 中 。 





图 11-15 ”按照 一 个 给 定 的 变量 顺序 表示 变量 界限 的 代码 


我 们 应 用 算法 11.13 来 生成 用 于 竺 直 扫描 图 11-11 中 的 友 代 罕 
上 的 黎 坏 界限 。 下 标 变 量 的 顺序 是 j，i。 该 算法 生成 了 如 下 的 界限 : 


L.:0 


1 





Uy 


我 们 要 满足 所 有 这 些 约束 ， 因 此 i 的 上 界 是 min 〈5j) 。 这 个 例子 中 没有 
见 余 的 界限 。 


11.3.6 ”坐标 轴 的 变换 





请 注意 ， 上 面 讨论 的 对 友 代 空间 进行 水 平 扫 描 或 垂直 扫描 只 是 两 种 
最 种 见 的 访问 和 欠 代 空间 的 方法 。 还 有 很 多 其 他 的 可 行 方法 ， 比 如 ， 我 们 


可 以 按照 逐条 和 斜 线 的 方式 来 扫描 例 11.6 中 的 迭代 空间 。 下 面 的 例 11.15 就 
讨论 这 种 扫描 方法 。 所 示 。 每 条 斜 线 上 的 点 的 坐标 j 和 i 之 间 的 差 值 是 一 
个 常量 。 开 始 的 时 候 这 个 差 值 是 0， 而 结束 的 时 候 是 7。 因 此 ， 我 们 定义 
一 个 新 的 变量 k=j-i， 并 按照 针对 k，j 的 词典 顺序 来 扫描 上 面 的 迭代 空 
间 。 在 不 等 式 中 用 j-k 蔡 代 i， 我 们 得 到 : 


我 们 可 以 按照 逐条 和 斜 线 的 方式 来 扫 拉 图 11-11 中 的 迭代 空间 ， 
顺序 如 图 11-16 
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图 11-16 ”图 11-11 的 迭代 空间 的 斜 向 排序 
0<j-k<5 
j-k<j<7 


要 为 上 面 描 述 的 顺序 建立 循环 界限 ， 可 以 对 上 面 的 不 等 式 集合 按照 
变量 顺序 k、j 应 用 算法 11.13， 得 到 


Li:k 





Uj:5+k,7 
Ly:0 


Ux: 7 


II 
习 为 j-k。 


for (k = 0; k <= 7; k++) 
for (j = k; j “= min(5+k,7); j++) 
Zijsj=k] = 0; 





一 般 来 说 ， 我 们 可 以 通过 创建 新 的 循环 下 标 变 量 并 定义 这 些 变 量 的 
顺序 ， 从 而 改变 一 个 多 面体 的 坐标 轴 。 这 些 新 的 循环 下 标 变量 表示 了 原 
来 变量 的 仿 射 组 合 。 这 个 问题 的 难点 在 于 如 何 选 择 适 当 的 坐标 轴 ， 使 得 
在 满足 数据 依赖 关系 的 同时 达到 并 行 性 和 局 部 性 目标 。 我 们 将 从 11.7 节 
开始 讨论 这 个 问题 。 在 这 里 ， 我 们 的 结果 表明 一 旦 选择 好 坐标 轴 ， 就 可 
以 像 例 11.15 所 示 那 样 直 接生 成 想 要 的 代码 。 


还 有 很 多 届 历 -迭代 的 顺序 不 能 使 用 这 个 撤 术 处 理 。 比 如 ， 我 们 可 
能 和 希望 首先 访问 一 个 迭代 空间 中 的 奇数 行 ， 然 后 再 访问 其 偶数 行 。 或 者 
我 们 可 能 想 从 达 代 空间 的 中 间 开 始 然 后 逐渐 到 达 边 缘 地 带 。 但 是 ， 对 于 
具有 仿 射 访问 函数 的 应 用 程序 而 言 ， 这 里 描述 的 技术 获 兰 了 人 们 期 望 的 
大 部 分 迭代 排序 。 








11.3.7 ”11.3 节 的 练习 
WR 
1) for (i=i0; i<50; i=1+7) xX[i,i+1] = 0; 
2) for (i= -3; i<=10; i=i+2) X[i] = X[i+1]; 
3) for (i=50; i>=10; i--) X[i] = 0; 
练习 11.3.2: 画 出 或 描述 下 面 的 每 个 循环 嵌 套 结构 的 迭代 空间 : 
1) 图 11-17a 中 的 循环 垦 套 结构 。 
2) 图 11-17b 中 的 循环 嵌 套 结构 。 


3) 图 11-17c 中 的 循环 能 套 结构 。 





for (i = 1; i < 30; i++) for (i = 10; i <= 1000; i++) 
for (j = i+2; j < 40-i; j++) for (j = i; j < i+10; j++) 
xX[i,j] = 0; X[i,j] = 0; 


a) 练习 11.3.2() 的 循环 区 套 结构 b) 练习 11.3.2(2) 的 循环 虑 套 结构 











for (i = 0; i < 100; i++) 
for (j = 0; j < 100+i; j++) 


for (k = i+j; k < 100-i-j; k++) 
X[i,j,k] = 0; 





c) 练习 11.3.2(G3) 的 循环 嵌 套 结构 
图 11-17 练习 11. 3. 2 的 循环 蛤 套 结 构 


练习 11.3.3: 按照 (11.1) 的 形式 写 出 图 11-17 中 的 每 个 循环 艇 套 结 
构 所 剖 涵 的 约束 。 也 就 是 给 出 癌 量 i 和 和 b 以 及 矩阵 B 的 值 。 


练习 11.3.4: 赤 倒 图 11-17 中 的 各 个 藤 套 结构 的 循环 藤 套 顺序 。 


练习 11.3.5: 使 用 Fourier-Motzkin 消 除 算法 从 练习 11.3.3 中 得 到 的 各 
个 约束 集合 中 消除 i。 


练习 11.3.6: 使 用 Fourier-Motzkin 消 除 算法 从 练习 11.3.3 中 得 到 的 各 
个 约束 集合 中 消除 j。 

练习 11.3.7: 对 于 图 11-17 中 的 每 个 循环 侍 套 结构 ， 改 写 相 应 的 代 
码 ， 使 得 坐标 轴 i 被 替换 为 主 对 角 线 ， 即 新 的 坐标 轴 可 以 用 i=j 描 述 。 新 
的 坐标 轴 应 该 对 应 于 最 外 层 循 环 。 

练习 11.3.8: 对 于 下 列 的 坐标 轴 变 换 ， 重 复 练习 11.3.7: 


1) 将 i 葵 换 为 itj， 即 新 的 坐标 轴 的 方向 是 itj 等 于 常量 的 直线 。 新 的 
坐标 轴 对 应 于 最 外 层 的 循环 。 


2) 将 j 葵 换 为 -2j。 新 的 坐标 轴 对 应 于 最 外 层 循环 。 


! 练习 11.3.9: 在 下 列 循环 中 ， 令 A、B 和 C 为 党 整数 并 且 C>1， 
B>A: 

















for (i = 人 1 x= -Be 1 C0) 
Z[i] = 0; 


改写 这 个 循环 使 得 该 循环 的 下 标 变量 的 增 量 为 1， 并 且 初 值 为 0。 也 就 是 
说 ， 新 循环 的 形式 如 下 : 


for (j = 0; j <= D; j++) 
Z[E+*j + F] = 0; 


其 中 D、E、F 为 整数 。 把 D、E、F 表 示 为 A、B、C 的 表达 式 。 
练习 11.3.10: 对 于 一 个 通用 的 深度 为 2 的 循环 藤 套 结构 


{for (1 = Ys de 
for(j = Bx*i+C; j <= D*i+E; j++) 


其 中 A 到 E 是 第 整数 。 以 矩阵 - 回 量 的 形式 ， 即 Bi+b=0 的 形式 写 出 这 个 御 
环 藤 套 结 构 的 迭代 空间 的 约束 。 


练习 11.3.11: 对 于 如 下 的 带 有 整数 符号 和 常量 m 和 和 n 的 通用 的 深度 为 2 
的 循环 藤 套 结构 


for (i = 0; i <= m; i++) 
for(j = A*i+B; j <= C*i+n; j++) 
重复 练习 11.3.10。 和 前 面 一 样 ，A、B 和 C 表 示 特 定 的 整数 常量 。 只 有 


i、j、m 和 n 可 以 在 未 知 量 的 问 量 中 出 现 。 忆 外 请 记 住 ， 只 有 i 和 j 是 表达 
式 的 输出 变量 。 





11.4 仿 射 的 数组 下 标 


本 章 关 注 的 是 仿 射 数组 访问 ， 即 每 个 数组 下 标 都 被 表示 为 循环 下 标 
和 符号 常量 的 仿 射 表 达 式 。 仿 射 函 数 提供 了 从 迭代 空间 到 数据 空间 的 简 
一 个 高 速 缓存 


就 像 一 个 循环 的 仿 射 上 下 界 可 以 表示 成 一 个 窍 阵 - 回 量 的 计算 一 
样 ， 我 们 可 以 使 用 同样 的 方法 来 处 理 仿 射 访问 函数 。 只 要 把 仿 射 访问 函 
数 表示 成 矩阵 -向 量 的 形式 ， 我 们 残 可 以 应 用 标准 的 线性 代数 技术 来 寻 
找 相关 的 信息 ， 比 如 被 访问 数据 的 维度 以 及 哪些 夫 代 指向 同一 个 数据 。 





11.4.1 ” 仿 射 访问 
如 果 下 列 条 件 成 立 ， 我 们 就 说 一 个 循环 中 的 一 个 数组 访问 是 仿 射 
的 。 


1) 该 循环 的 上 下 界 被 表示 为 外 围 循环 变量 和 符号 种 量 的 仿 射 表达 


式 ， 且 


2) 该 数组 的 每 个 维度 的 下 标 也 是 外 围 循环 变量 和 符号 常量 的 仿 射 
表达 式 。 





假设 i 和 j 是 循环 下 标 变量 ， 其 上 下 界 通 过 仿 射 表达 式 给 出 。 
方 对 数组 访问 的 例子 有 Z [i] ，Z [itjt1] ，Z [0] ，Z [ii] 和 

Z [2*i+lL3*j-10] 。 如 果 n 是 一 个 循环 埃 套 结构 中 的 符号 常量 ， 那 么 

Z [3*n,n-j] 是 仿 射 数组 访问 的 另 一 个 例子 。 但 是 Z [isj] 和 Z [ns*j] 不 
是 仿 射 访问 。 


每 个 仿 射 数组 访问 可 以 用 两 个 矩阵 和 两 个 癌 量 来 描述 。 第 一 个 窍 
阵 -向 量 对 是 B 和 b， 它 们 以 式 〈11.1) 中 的 不 等 式 的 方式 描述 了 该 访问 
的 欠 代 空间 。 我 们 通常 用 F 和 f 来 表示 第 二 对 和 矩阵 - 回 量 对 。 它 们 表示 循 
环 下 标 变量 的 函数 ， 这 些 函 数 生 成 了 在 数组 访问 的 不 同 维度 中 使 用 的 数 














组 下 标 。 


正式 地 说 ， 我 们 把 使 用 了 下 标 变 量 向 量 i 的 一 个 循环 舱 套 结构 中 的 
数组 访问 表示 为 一 个 四 元 组 .ZE= <F,f,B,b >; 它 把 界限 





Bi+b>0 
中 的 癌 量 讽 射 到 数组 元 素 位 置 
Fi+f 


| 图 11-18 中 是 一 些 常见 的 用 矩阵 表示 法 表示 的 数组 访问 。 两 个 
水 i 利 j 组 成 了 向 量 i。 另 外 ，X、Y 和 Z 分 别 是 维度 为 1、2 和 3 的 数 








| 数组 访问 仿 射 表 过 式 | 





Z[1,i,2*i+j] 











图 11-18 一 些 数组 访问 和 它们 的 矩阵 -向 量 表示 


第 一 个 数组 访问 X [i-1]」 由 一 个 1x2 的 矩阵 FR 和 一 个 长 度 为 1 的 向 量 f 
表示 。 请 注意 ， 当 我 们 执行 矩阵 - 癌 量 乘 法 并 加 到 f 中 时 ， 我 们 得 到 一 个 





函数 i-1。 这 个 函数 就 是 前 面 提 a 到 的 对 一 维 数 组 X 进 行 访问 所 使 用 的 公 

式 。 同 时 请 注意 ， 第 三 个 访问 Y [jj+1lj 在 进行 窍 阵 - 回 量 乘法 和 加 法 之 
后 ， 得 到 一 个 函数 对 (Gj,j+1)〉。 它 们 就 是 这 个 二 维 数 组 访问 的 下 标 。 

”最 后 ， 我 们 观察 第 四 个 数组 访问 Y [1,2」。 这 个 访问 是 一 个 常量 ， 
宣 无 疑问 ， 息 阵 F 是 全 零 矩 阵 。 因 此 ， 循 环 下 标的 癌 量 没有 出 现在 访问 
函数 中 。 











11.4.2 ”实践 中 的 仿 射 访问 和 非 仿 射 访问 





在 数值 计算 程序 中 ， 有 一 些 常 见 的 数据 访问 模式 不 是 仿 射 的 。 涉 及 
稀 政 和 矩阵 的 程序 是 一 个 重要 的 例子 。 稀 琉 窍 阵 的 常用 表示 方法 之 一 是 只 
保存 一 个 向 量 中 的 非 零 元 系 ， 并 使 用 辅助 的 下 标 数组 来 记录 对 一 行 从 哪 
里 开始 ， 以 及 哪些 列 包 含 非 零 元 素 。 访 问 这 样 的 数据 时 要 使 用 间接 数组 
访问 。 这 种 类 型 的 访问 ， 比 如 X LY Di ] ， 是 对 数组 X 的 非 仿 射 访 
问 。 如 果 和 托 阵 的 黎 玻 情况 是 有 规律 的 ， 比 如 在 一 个 带 状 窍 阵 中 只 有 在 对 
角 线 周围 才 有 非 零 元 素 ， 那 么 可 以 使 用 紧密 数组 来 表示 之 有 非 零 元 素 的 
于 区域。 在 这 样 的 情况 下 ， 数 组 访问 仍 可 能 是 仿 射 的 。 


另 一 个 常见 的 非 仿 射 访问 的 例子 是 线性 化 的 数组 。 程 序 员 有 时 使 用 
一 个 线性 数组 来 存放 一 个 在 逻辑 上 多 维 的 对 象 。 这 么 做 的 原因 之 一 是 多 
维 数组 的 维度 可 能 在 编译 时 刻 未 知 。 在 正常 情况 下 写成 Z [i,j」 形式 的 
访问 现在 变 成 了 Z [ix*n+j]j ， 其 下 标 是 一 个 二 次 函数 。 如 果 对 线性 化 数 
组 的 每 个 访问 都 可 以 被 分 解 为 不 同 维度 的 分 量 并 保证 每 个 分 量 都 不 会 超 
过 维度 界限 ， 那 么 我 们 可 以 把 这 个 线性 访问 转换 成 为 一 个 多 维 的 访问 。 
最 后 ， 如 例 11.18 所 示 ， 我 们 注意 到 可 以 使 用 归纳 变量 分 析 把 一 些 非 仿 
射 访问 转换 成 为 仿 射 访问 。 


我 们 可 以 把 下 面 的 代码 


for (i = 0; i <= n; i++) { 
zi = 0; 
] = j+2; 
} 
写成 
J 也， 


for (i = 0 i <= 五; 1+4) 4 
Z[n+2*i] = 0; 


这 样 做 使 得 这 个 对 和 窍 阵 Z 的 访问 变 成 仿 射 的 。 


11.4.3 11.4 节 的 练习 





练习 11.4.1: 对 于 下 面 的 每 个 数组 访问 ， 给 出 描述 它们 的 向 量 f 和 甜 
0 
限 。 


1) X [2*i+3,2*j-i] 





2) Y [ij, j-k, k-i] 


3) Z [3, 2%), kK-2*i+1 | 


11.5 数据 复 用 


函数 中 我 们 得 到 了 两 种 可 用 于 局 部 性 优化 和 并 行 化 的 有 





1) 数据 复 用 : 对 于 局 部 性 优化 ， 我 们 希望 识别 出 访问 相同 数据 或 
相同 高 速 缓存 线 的 迭代 集合 。 


2) 数据 依赖 : 为 了 并 行 化 和 局 部 性 循环 转换 的 正确 性 ， 我 们 希望 
找 出 代码 中 的 所 有 数据 依赖 关系 。 回 顾 一 下 ， 如 果 两 个 (不 一 定 不 同 
的 ) 访问 的 实例 可 能 指向 相同 的 内 存 位置 ， 并 且 其 中 至 少 有 一 个 是 写 运 
算 ， 那 么 这 两 个 访问 之 间 具 有 数据 依赖 关系 。 


在 很 多 情况 下 ， 只 要 我 们 找到 了 复 用 相同 数据 的 迭代 ， 就 知道 它们 
之 间 必 然 存在 数据 依赖 关系 。 

只 要 存在 数据 依赖 关系 ， 显 然 就 会 有 相同 的 数据 被 复 用 。 比 如 ， 在 
证 阵 乘 法 中 ， 输 出 数组 中 的 同一 个 元 素 被 写 O Cn) 次 。 这 些 写 运算 必 


须 按 照 原来 的 顺序 执行 加， 我 们 可 以 分 配 一 个 寄存 器 ， 令 它 在 计算 输出 
数组 的 一 个 元 系 时 存放 该 元 素 。 这 个 就 可 以 利用 这 个 数据 复 用 机 会 。 


不 过 ， 并 不 是 所 有 的 数据 复 用 都 可 以 用 到 局 部 性 优化 中 ， 下 面 的 例 
子 说 明了 这 个 问题 。 


考虑 下 面 的 循环 : 





for (i = 0; i < n; i++) 
Z[7*i+3] = Z[3*i+5]; 


我 们 观察 到 这 个 循环 在 每 次 迭代 时 都 对 不 同 的 内 存 位 置 进行 写 运 
算 ， 因 此 在 不 同 的 写 操作 之 间 没 有 复 用 或 者 依赖 关系 。 但 是 ， 这 个 循环 
从 位 置 5、8、11、14、17、... 读 取 数 据 ， 而 同位 置 3、10、17、24... 写 
入 数据 。 不 同 迭代 的 读 运 算 和 写 运 算 访 问 了 共同 的 元 素 17、38 和 59...。 
也 就 是 说 ， 对 于 j=0,1,2,...， 形 如 17+21j Gj=0，1，2，...) 的 整数 就 是 
所 有 既 可 以 写作 7ij+3， 又 可 以 写作 3i,+5 的 整数 ， 这 里 ij，i, 是 两 个 整 

















> 
故 到 。 


数据 依赖 和 复 用 分 析 的 不 同 之 处 在 于 : 具有 数据 依赖 关系 的 访问 中 
必须 有 一 个 访问 是 写 访问 。 更 重要 的 是 ， 数 据 依赖 关系 必须 既 正 确 又 精 
确 。 为 了 保持 正确 性 ， 它 必须 找到 所 有 的 依赖 关系。 但 是 ， 它 又 不 应 该 
找 出 假 的 依赖 关系 ， 因 为 这 些 假 依 赖 关 系 会 引起 不 必要 的 串 行 执行 。 


考虑 数据 复 用 时 ， 我 们 只 需要 找 出 大 部 分 可 利用 的 复 用 在 哪里 。 这 
个 问题 就 简单 多 了 ， 因 此 我 们 在 本 节 中 就 讨论 这 个 主题 ， 接 下 来 再 讨论 
数据 依赖 问题 。 因 为 循环 界限 很 少 改 变 复 用 区 域 的 形状 ， 所 以 可 以 通过 
忽视 循环 界限 来 简化 对 复 用 的 分 析 。 可 以 被 仿 射 分 划 利 用 的 很 多 数据 复 
用 位 于 相同 数组 访问 的 不 同 实 例 之 间 ， 以 及 使 用 相同 的 系数 矩阵 〈( 即 在 
仿 射 下 标 了 水 数 中 通常 被 称 为 F 的 矩阵 ) 的 访问 之 间 。 上 和 面 介绍 过 ， 像 
7i+3 和 3i+5 这 样 的 访问 模式 没有 令 人 感 兴趣 的 复 用 。 




















11.5.1 数据 复 用 的 类 型 


我 们 首先 用 例 11.20 来 说 明 不 同 种 类 的 数据 复 用 。 在 下 面 的 内 容 
中 ， 我 们 需要 区 分 作为 程序 中 的 一 个 指令 的 访问 《比如 xX=Z [i,j] ) 和 
我 们 执行 循环 藤 套 结构 时 指令 的 多 次 执行 。 为 了 强调 它们 之 间 的 区 别 ， 
我 们 将 把 访问 指令 本 和 喘 称 为 静态 访问 (static access) ， 而 当 我 们 执行 该 
循环 艇 套 结构 时 该 语句 的 多 次 从 代 称 为 动态 访问 (dynamic access) 。 


数据 复 用 可 以 分 为 自 复 用 和 组 复 用 两 种 。 如 果 复 用 同样 数据 的 多 个 
迭 代 源 于 同一 个 静态 访问 ， 我 们 束 把 这 样 的 复 用 称 为 目 复 用 ， 如 宁 它 们 
源 于 不 同 的 静态 访问 ， 那 么 我 们 称 这 个 复 用 为 组 复 用 。 如 果 一 个 复 用 指 
问 完全 相同 的 位 置 ， 那 么 它 就 是 时 间 复 用 ; 如 果 指 向 同一 个 高 速 绥 存 
线 ， 那 么 它 就 是 空间 复 用 。 


考虑 下 面 的 循环 嵌 套 结构 : 


float ZLnj] ; 
for (i = 0; i < n; i++) 
far Kj = 0 ] < 1s j++) 
2 [ad s (2Z[i] » ZL + 20+2] 3 





数组 访问 Z [jj 、Z [Lj+1] 和 Zz [Lj+2」 都 有 具有 自 空 间 复 用 性 ， 因 为 同一 
个 访问 的 连续 达 代 指 癌 连续 的 数组 元 素 。 我 们 假定 连续 元 取 很 可 能 存放 
在 同一 个 高 速 缓存 线 中 。 另 外 ， 这 些 访问 都 具有 自 时 间 复 用 性 ， 因 为 在 
外 层 循环 的 每 次 迭代 中 ， 同 一 个 元 素 被 多 次 使 用 。 再 者 ， 它 们 都 具有 同 
样 的 系数 和 矩阵， 因此 具有 组 复 用 性 。 在 不 同 的 访问 之 间 具 有 组 复 用 性 ， 
而 且 既 是 时 间 性 复 用 ， 又 是 空间 性 复 用 。 当 这 些 复 用 都 可 以 利用 时 ， 虽 
然 在 代码 中 有 4n“ 次 访问 ， 我 们 只 需要 把 大 约 n/c 个 高 速 缓存 线 加 载 到 高 
速 缓存 中 即 可 ， 其 中 c 是 一 个 高 速 缓存 线 中 的 内 存 字 的 数量 。 因 为 具有 
自 空 间 复 用 性 ， 我 们 从 4n“ 中 消除 了 一 个 因子 n; 因为 存在 空间 局 部 性 ， 
我 们 又 把 加 载 次 数 降 低 了 c 倍 ; 最 后 因为 组 复 用 的 原因 又 降低 了 4 僧 。 


下 面 我 们 说 明 如 何 使 用 线性 代数 从 仿 射 数组 访问 中 抽取 复 用 信息 。 
我 们 感 兴趣 的 不 仅仅 是 找 出 有 多 大 的 提高 性 能 的 潜力 ， 而 且 要 找 出 哪些 
迭代 在 复 用 数据 ， 以 便 把 这 些 迭 代 移 近 从 而 利用 这 些 复 用 。 























11.5.2” 自 复 用 








通过 利用 目 复 用 可 以 有 效 节 约 在 内 存 访问 方面 的 开销 。 如 果 一 个 静 
态 访问 所 指 同 的 数据 具有 k 个 维度 ， 且 这 个 访问 柑 套 在 一 个 深度 为 
dd>k) 的 循环 结构 中 ， 那 么 同一 个 数据 可 以 被 复 用 nd 次。 其 中 ，n 是 
每 个 循环 的 迭代 次 数 。 比 如 ， 如 采 一 个 深度 为 3 的 循环 藤 套 结构 访问 一 
个 数组 的 某 一 列 ， 那 么 访问 节约 系数 就 可 能 达到 n*。 实 际 上 ， 一 个 访问 
的 维度 和 这 个 访问 的 系数 矩阵 的 秩 相 对 应 。 我 们 可 以 通过 寻找 该 矩阵 的 
零 空间 来 找 出 哪些 迭代 指 问 同一 个 位 置 。 具 体 方 法 在 下 面 解 释 。 


和 窍 阵 的 秩 
矩阵 F 的 秩 是 F 的 线性 无 关 列 (或 者 等 价 地 ， 行 ) 的 最 大 数目 。 一 个 


向 量 集 合 被 称 为 线性 无 关 〈linearly independent) 的 条 件 是 没有 向 量 可 以 
被 写成 该 集合 中 有 限 多 个 其 他 回 量 的 线性 组 合 。 
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请 注意 ， 第 二 行 是 第 一 和 第 三 行 的 和 ， 而 第 四 行 是 第 三 行 减 去 第 一 
行 的 两 倍 。 但 是 ， 第 一 行 和 第 三 行 是 线性 独立 的 ， 其 中 的 任何 一 行 都 不 
是 另 一 行 的 倍数 。 因 此 ， 和 拢 阵 的 秩 是 2。 

我 们 也 可 以 通过 检查 各 列 来 得 到 这 个 结果 。 第 三 列 是 第 二 列 的 两 倍 
减 去 第 一 列 。 另 一 方面 ， 任 何 两 列 都 是 线性 独立 的 。 我 们 同样 可 以 确定 
矩阵 的 秩 为 2。 

由 人 人 
县 为 1， 因 为 矩阵 [1 0] 的 秩 为 1。 也 就 是 说 ， 唯 一 的 一 行 是 线性 独立 
的 ， 同 样 第 一 列 也 是 线性 独立 的 。 


第 二 个 访问 Y [i,j」 的 维度 为 2。 原 因 是 矩阵 
1 0 
四 
具有 两 个 独立 的 行 〈 当 然 ， 因 此 也 具有 两 个 独立 的 列 ) 。 
第 三 个 访问 Y [Dj,j+1] 的 维度 为 1， 因 为 矩阵 
0 1 
[i 
的 秩 为 1。 请 注意 ， 和 矩阵 中 的 两 行 是 相同 的 ， 因 此 只 有 一 行 是 线性 独立 
的 。 等 价 地 ， 第 一 列 是 第 二 列 乘 以 0， 因 此 这 两 列 不 是 独立 的 。 直 观 地 

















讲 ， 在 一 个 大 的 正方 形 数 组 Y 中 ， 所 有 被 访问 的 元 系 部 排列 在 紧 徘 主 对 
角 线 之 上 的 一 条 和 斜 线 上 。 


第 四 个 访问 Y [1,2」 的 维度 为 0， 因 为 一 个 全 零 矩 阵 的 秩 为 0。 请 注 
意 ， 对 于 这 样 的 一 个 和 矩阵， 我们 找 不 出 非 零 的 矩阵 的 行 〈 哪 由 只 有 一 
行 ) 的 线性 和 。 最 后 一 个 访问 Z [i,i,2*i+j」 的 维度 为 2。 请 注意 在 这 个 


访问 的 红 阵 
0 0 
] 0 
2 1 


中 ， 最 后 两 行 是 线性 独立 的 ， 任 何 一 行 都 不 是 力 一 行 的 倍数 。 但 是 ， 第 
一 行 是 另 两 行 的 线性 “和 ”其 中 的 系数 都 是 0。 


矩阵 的 零 空间 


在 一 个 深度 为 d 的 循环 嵌 套 结构 中 的 秩 为 r 的 数据 引用 在 O (nd) 个 
迭代 中 访问 了 O (nr) 个 数据 元 素 ， 因 此 平均 一 定 有 O (ns) 个 迭代 指 
加 同一 个 数组 元 素 。 哪 些 迭 代 访 问 了 同一 个 数据 呢 ? 假设 在 这 个 循环 明 
套 结 构 中 的 一 个 访问 用 F 和 f 的 矩阵 -向 量 组 合 来 表示 。 令 i 和 i 为 指 问 同 一 
个 数组 元 素 的 两 个 近代， 那么 Fitf=Fi'+f。 重 新 排列 这 个 等 式 中 的 各 
项 ， 我 们 得 到 








F (i-i') =0 


有 一 个 众所周知 的 线性 代数 概念 可 以 刻 划 i 和 i 在 什么 时 候 满 足 上 述 等 
式 。 满 足 等 式 Fv=0 的 所 有 解 的 集合 称 为 F 的 零 空间 。 因 此 ， 如 果 两 个 迭 
下 标 同 量 的 差 属 于 矩阵 F 的 零 空 间 ， 那 么 它们 指 回 同 一 个 数组 
元 系 。 








显然 ， 零 向 量 v=0 总 是 满足 Fv=0。 也 就 是 说 ， 如 果 两 个 向 量 的 差 为 
0， 那 么 它们 一 定 指向 同一 个 数组 元 素 。 换 人 句 话 说 ， 如 果 它 们 实际 上 是 
同一 个 迭代 ， 它 们 就 指向 同一 个 元 素 。 男 外 ， 零 空间 确实 是 一 个 向 量 空 
间 。 也 就 是 说 ， 如 果 Fvi=0 且 Fv=0， 那 么 F (vitv,) =0 有 HF (cvi1) =0。 








如 果 和 矩阵 F 是 全 秩 的 〈fully ranked) ， 也 就 是 说 它 的 秩 为 4， 那 么 F 
的 零 空间 只 包含 零 同 量 。 在 这 种 情况 下 ， 一 个 循环 退 套 的 各 个 迭代 指 问 
不 同 的 数据 。 一 般 来 说 ， 零 空间 的 维度 ， 或 者 说 零 数 (nullity〉， 就 是 
d-r。 如 果 d>r， 那 么 对 于 每 个 元 素 ， 访 问 该 元 素 的 迭代 组 成 一 个 (d-r) 
维 空间 。 

零 空间 可 以 用 它 的 基本 向 量 表示 。 一 个 k 维 的 零 空 间 可 以 由 k 个 独立 
的 同 量 表 不 ， 任何 可 以 被 表示 为 这 些 基 本 向 量 的 线性 组 合 的 向 量 都 属于 
这 个 空间 。 


重新 考虑 例 11.21 的 矩阵 
| 本 
天 
4 5 0 
2 1 0 


在 例 11.21 中 ， 我 们 确定 这 个 矩阵 的 秩 为 2， 因 此 其 零 数 为 3-2=1。 在 这 个 
例子 中 ， 零 空间 的 基本 向 量 必然 是 一 个 长 度 为 3 的 非 零 向 量 。 为 了 找到 
这 个 零 空 间 的 基本 向 量 ， 我 们 假设 零 空 间 中 的 一 个 癌 量 为 [xyz] ， 并 
尝试 求解 下 面 的 方程 





























请 (LA 一 
NN 
OO OW 


中 








如 采 我 们 将 前 面 两 行 乘 以 未 知 癌 量 ， 就 得 到 两 个 方程 
X+2y+32z=0 
DX+7y+92z=0 








我 们 也 可 以 根据 第 三 和 第 四 行 写 出 这 样 的 方程 ， 但 是 因为 不 存在 三 
个 线性 独立 的 行 ， 所 以 增加 方程 不 会 对 x、y 和 z 增 加 新 的 约束 。 比 如 ， 
我 们 从 第 三 行 得 到 的 方程 4x+5y+6z=0 就 是 通过 从 第 二 个 方程 中 减 去 第 一 
个 方程 得 到 的 。 


我 们 必须 尽 可 能 地 从 上 面 的 等 式 中 消除 变量 。 首 先 使 用 第 一 个 方程 
求解 x， 得 到 x=-2y-3z。 人 然后 在 第 二 个 方程 中 蔡 换 x， 得 到 -3y=6z， 即 
y=-2z。 由 x=-2y-3z 且 y=-2z 可 知 x=z。 因 此 ， 变 量 [xyz] 实际 上 是 
[z,-2z,z」 。 我 们 可 以 选择 任意 的 非 零 z 值 ， 得 到 这 个 零 空 间 的 唯一 基本 
同 量 。 比 如 ， 我 们 可 以 选择 z=1 并 把 【1,-2,1」 当 作 这 个 等 空间 的 基本 辣 


里 。 

















例 11.17 中 的 所 有 数组 访问 的 秩 、 零 数 和 零 空间 显示 在 图 11- 
19 中 ， 博 注意 ， 在 所 有 情况 下 秩 和 堆 数 的 和 都 等 于 该 循环 能 套 的 深度 
2。 因 为 数组 访问 Y [i,j] 和 Zz [1i2*i+j] 的 秩 都 是 2， 因 此 所 有 的 迭代 
都 指向 不 同 的 位 置 。 











访问 仿 射 表达 式 铁 | 过 数 “ | 基本 向 时 


ee [10] | + —1 ] 1 


Yi sls)+|a] 
[和 EN 昌国 


1 
0 
加 
0 ori 1 
WV | 1 
Z[1i,i,2*i+j] | | 1 0 | | +|0 2 
S$ 1 | 0 


图 11-19 仿 射 访问 的 秩 和 零 数 


数组 访问 X Li1] 和 Y [j，j+1j」 的 矩阵 的 秩 都 是 1:， 因 此 O (n) 个 
和 迭代 指 回 同 一 个 位 置 。 在 前 一 种 情况 下 ， 和 迭代 空间 的 一 整 行 都 指向 同一 
个 位 置 。 换 名 话说， 仅仅 j 值 不 同 的 所 有 迭代 指向 同一 个 位 置 。 这 一 事 
实 由 相应 零 空 间 的 基本 辐 量 [0,1」 明确 表示 。 对 于 Y [j，j+1j ， 和 友 代 
空间 中 的 整 列 指向 同一 个 位 置 。 这 个 事实 由 相应 零 空 间 的 基本 向 量 
L1,0] 明确 表示 。 


最 后 ， 数 组 访问 Y [12] 在 所 有 迭代 中 指 同 同一 个 位 置 。 相 应 的 零 
空间 有 两 个 基本 向 量 [0,1] 和 [10] ， 这 表示 这 个 循环 拒 套 中 的 任何 
一 对 迭代 都 准确 地 指 同 同一 个 位 置 。 
































11.5.3 ” 目 空 间 复 用 





空间 复 用 的 分 析 依 赖 于 矩阵 的 数据 布局 。C 语 言 的 矩阵 是 按 行 存放 
的 ， 而 Fortran 语 言 的 矩阵 按 列 存放 。 换 句 话 说 ， 在 C 语 言 中 数组 元 素 
X [i,j] 和 X [i，j+1] 相 邻 ， 而 在 Fortran 语 言 中 X [i, j] 和 X [i+1， 
j」 相 邻 。 不 失 一 般 性 ， 在 本 章 余 下 的 部 分 ， 我 们 将 选用 C 语 言 的 数组 布 





局 方式 《投行 存放 方式 ) 。 


首先 作出 如 下 的 近似 ， 当 且 仅 当 两 个 数组 元 么 位 于 一 个 二 维 数组 的 
司 一 行 中 时 ， 我 们 认为 它们 共 孚 一 个 高 速 缓存 线 。 更 加 一 般 地 讲 ， 在 一 
个 d 维 数组 中 ， 如 宋 两 个 元 素 只 在 最 后 一 维 的 下 标 值 上 有 所 不 同 ， 我 们 
就 认为 它们 共享 一 个 高 速 缓存 线 。 因 为 对 于 通常 的 数组 和 高 速 缓存 线 ， 
多 个 笋 组 元 案 可 以 被 放 到 同一 高 束 绥 存 线 中 ， 以 束 行 的 方式 顺序 访问 一 
个 数组 可 以 明显 提高 访问 速度 。 虽 然 严 格 地 讲 ， 我 们 有 时 还 需要 等 竺 加 
开会 个 新 的 高 速 缓存 线 。 


发 现 和 利用 目 空 间 复 用 的 技巧 是 不 考虑 系数 矩阵 F 中 的 最 后 一 行 。 
如 末 得 到 的 截 短 后 的 矩阵 的 秩 小 于 循环 符 套 结构 的 深度 ， 那 么 我 们 束 可 
以 确保 最 内 层 循 环 只 改变 数组 的 最 后 下 标的 值 ， 从 而 保证 空间 局 部 性 。 


考虑 图 11-19 中 的 最 后 一 个 数组 访问 Z [Li2*i+j] 。 如 果 我 们 
| 际 取 后 一 行 ， 就 会 得 到 下 面 的 截 短 后 的 和 矩阵 


0 0 

[1 
这 个 矩阵 的 秩 显 然 是 1。 因 为 该 循环 谋 套 结构 的 深度 为 2， 所 以 存在 
空间 复 用 的 机 会 。 在 这 个 例子 中 ， 因 为 j 是 内 层 循环 的 下 标 且 Z 是 按 行 存 


放 的 ， 所 以 内 层 循环 访问 Z 的 连续 元 素 。 让 i 成 为 内 层 循环 的 下 标 不 会 产 
生 空 间 局 部 性 。 因 为 当 i 改 变 时 ， 第 二 和 第 三 个 维度 都 会 改变 。 


确定 是 否 存 在 目 空 间 复 用 的 一 般 规则 如 下 。 如 我 们 一 直 所 做 的 ， 假 
设 各 循环 的 下 标 和 系数 矩阵 的 各 列 顺序 对 应 ， 其 中 最 外 层 循 环 对 应 于 第 
一 列 ， 最 内 层 循 环 对 应 于 最 后 一 列 。 然 后 ， 为 了 确保 存在 空间 复 用 ， 问 
量 [0,0,.….,0,1」 必须 在 被 截 短 的 矩阵 的 零 空 间 中 。 理 由 古 如 果 这 个 同 量 
在 零 空 间 中 ， 那 么 当 我 们 把 除了 最 内 层 下 标 之 外 的 所 有 下 标 都 固定 下 来 
的 时 候 ， 束 知道 在 最 内 层 循 环 的 一 次 执行 中 所 有 的 动态 访问 部 只 在 最 后 
的 数组 下 标 上 取 不 同 的 值 。 如 果 数 组 是 按 行 存放 的 ， 那 么 这 些 元 素 之 间 
距离 接近 ， 有 可 能 在 同一 高 速 缓存 线 中 。 


请 注意 ， [0,1] 〈 转 置 为 一 个 列 问 量 ) 位 于 例 11.25 中 的 被 截 
号 J 零 空 间 中 。 因 此 ， 我 们 期 望 当 把 j 当 作 内 层 循环 下 标 时 会 出 现 
空间 局 部 性 。 另 一 方面 ， 如 果 我 们 颠倒 循环 的 顺序 使 得 i 成 为 内 层 循 
环 ， 那 么 系数 矩阵 就 变 成 


























lo 


现在 ， [0,1] 就 不 在 这 个 矩阵 的 零 空 间 中 了 。 相 反 地 ， 和 零 空间 由 基本 
回 量 [1,0」 生 成 。 因 此 ， 如 我 们 在 例 11.25 中 所 建议 的 ， 如 果 i 是 内 层 循 
环 ， 我 们 不 再 期 望 这 个 循环 具有 空间 局 部 性 。 


但 是 ， 我 们 应 该 观察 到 向 量 [0,0,...,0,1] 在 零 空 间 里 远 不 足以 保证 
空间 局 部 性 。 比 如 ， 假 设 该 访问 不 是 Z [1,i,2*i+j] 而 是 
Z [1,i,2*i+50*j] 。 那 么 在 内 层 循 环 的 一 次 运行 中 ，Z 的 每 50 个 元 素 只 有 
一 个 元 素 会 被 访问 ， 除 非 一 个 高 速 缓存 线 长 到 足以 保存 50 个 以 上 的 元 
素 ， 否 则 我 们 将 无 法 复 用 一 个 高 速 缓存 线 。 





11.5.4 组 复 用 
我 们 只 在 同一 个 循环 中 的 具有 相同 系数 矩阵 的 数组 访问 之 间 计 算 组 
复 用 。 给 定 两 个 动态 访问 Fi+ 台 和 Fi+ 包 ， 它 们 复 用 相同 的 数据 的 条 件 是 
Fi+ 人 有 =Fi2+f 
或 者 说 
F (i-iy) = (f,-f1) 


假设 v 是 这 个 等 式 的 一 个 解 ， 如 有 果 w 是 F 的 零 空 间 中 的 任意 问 量 ， 那 么 
w+v 也 是 一 个 解 。 实 际 上 ， 这 样 的 癌 量 就 是 该 方程 的 全 部 解 。 


下 面 的 深度 为 2 的 循环 嵌 套 结构 








for (1; 1 = 了 dt++) 
for (j = 1; j <= n; j++) 


有 两 个 数组 访问 Z [jj 和 Z [i-1,j」。 请 注意 ， 这 两 个 访问 都 可 以 使 用 
系数 矩阵 


bs 


来 刻 划 。 这 个 矩阵 和 图 11-19 中 的 第 三 个 访问 Y [ijj 的 矩阵 一 样 。 这 个 
矩阵 的 秩 为 2， 因 此 没有 自 时 间 复 用 。 


但 是 ， 每 个 访问 都 展示 了 目 空 间 复 用 。 如 11.5.3 节 中 所 述 ， 当 我 们 
删除 该 矩阵 的 最 下 面 一 行 后 ， 只 留 下 最 上 面 的 一 行 [10] ， 其 秩 为 1。 
因为 [0,1] 位 于 这 个 被 截 短 抢 阵 的 零 空 间 中 ， 所 以 我 们 期 望 找 到 空间 
复 用 。 内 层 循 环 下 标 j 的 每 次 增加 都 会 把 第 二 个 下 标的 值 增 加 1， 实 际 上 
确实 访问 了 连续 的 数组 元 素 ， 并 将 充分 利用 每 个 高 速 缓存 线 。 

虽然 两 个 访问 都 没有 自 时 间 复 用 性 ， 请 注意 这 两 个 访问 Z [i,j] 和 
Z [i-1,j」 所 访问 的 几乎 是 同一 个 集合 的 数组 元 素 。 也 就 是 说 ， 除 了 i=1 
的 情况 之 外 ， 数 组 访问 Z [i-1,j」 所 读 取 的 数据 和 数组 访问 Z [i,j]」 所 写 
入 的 数据 相同 ， 因 此 它们 之 间 存 在 组 时 间 复 用 。 这 个 简单 的 访问 模式 对 
于 整个 迭代 空间 者 成立， 可 以 利用 这 个 模式 来 提高 代码 的 数据 局 部 性 。 
正式 地 讲 ， 如 果 不 考虑 循环 界限 ， 那 么 只 要 


1 0Qirii 0 1 01T72 = 
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成 立 ， 分 别 位 于 迭代 (ij) 和 和 迭代 (i,j,》 中 的 两 个 数组 访问 Z [ij] 
和 Z [i-1,j] 指向 同一 个 位 置 。 改 写 这 些 项 ， 我 们 得 到 


[。 J | |] 
9d Ly = 0 
也 就 是 说 ， j1=j> 且 ip=i1+1。 

请 注意 ， 这 个 复 用 是 沿 着 迭代 空间 的 i 轴 发 生 的 。 也 就 是 说 ， 旭 代 
(jy,jp) 在 友 代 〈iji) 发 生 之 后 的 n 次 〈 内 层 循环 的 ) 友 代 之 后 才 发 
生 。 因 此 ， 在 被 写 入 数据 被 复 用 之 前 要 执行 很 多 个 迭代 。 此 时 这 个 数据 


有 可 能 在 (也 有 可 能 不 在 〉 高 速 缓存 中 了 。 如 果 高 速 缓存 中 存放 了 矩阵 
Z 的 连续 两 行 ， 那 么 数组 访问 Z [i-1,j」 不 会 发 生 高 速 缓存 脱衣 现象 ， 整 
































个 循环 嵌 套 结构 的 总 的 高 速 缓存 脱 靶 数量 为 nc， 其 中 c 是 每 个 高 速 缓存 
线 中 的 元 系数 量 。 人 否则 ， 脱 靶 次 数 将 会 为 原来 的 两 售 ， 因 为 这 两 个 静态 
访问 对 于 每 c 个 动态 访问 都 要 求 加 载 一 个 新 的 高 速 缓 存 线 。 


假设 在 一 个 深度 为 3 的 循环 嵌 套 结构 中 有 两 个 访问 A [i,j,i+j] 


HA Li+1Lj-Li+] 。 该 拒 套 结构 的 下 标 从 外 到 内 分 别 是 i、j、k。 那 么 对 
于 两 个 访问 ij= [ij1， kj 和 和 i= [ij>， ko ] ， 只 要 


0 Ll 0 0-[ 2 1 
1 0JLE 0 0JL&, 0 


成 立 ， 它 们 就 能 复 用 同一 个 数组 元 素 。 


这 个 方程 成 立时 ， 癌 量 v= Lii-izji-jzki-koz] 的 一 个 解 为 
v= [1,-1,0] 。 也 就 是 说 ii=i+1，j1=j>-1 且 ki=k。 负 然而 ， 生 阵 








一 所 王 
一 一口 
OO 











1 0 0 
F=I0 1 0 
1 1 0 





的 零 空 间 是 由 其 本 癌 量 [0,0,1」 和 生成 的 。 也 就 是 说 ， 第 三 个 循环 下 
标 k 可 以 是 任意 值 。 因 此 ， 上 面 方程 的 解 Vv 可 以 是 [1,-1,m」 ， 其 中 四 为 
任意 值 。 换 人 句 话说 ， 在 一 个 下 标 为 1[、j、k 的 循环 嵌 套 结构 中 ， 
A [ij,itjj」 的 一 个 动态 访问 不 仅 被 A [Lijitj」 的 具有 同样 1、j 值 和 不 同 k 
值 的 其 他 动态 访问 所 复 用 ， 也 被 A [i+1,j-1,i+j」 的 其 循环 下 标 值 为 i+1、 
j-1 和 任意 k 值 的 动态 访问 所 复 用 。 


我 们 可 以 用 类 似 的 方法 来 考虑 组 空间 复 用 ， 虽 然 不 会 在 这 里 这 么 
空间 复 用 的 讨论 一 样 ， 我 们 只 需要 舍弃 被 考虑 矩阵 的 最 后 
一 维 驶 可 以 了 。 








对 于 不 同 种 类 的 复 用 ， 复 用 的 程度 是 不 同 的 。 目 时 间 复 用 的 好 处 最 
多 : 一 个 具有 k 维 零 空间 的 数组 访问 对 同一 个 数据 会 复 用 O (Cn*) 次 。 自 
空间 复 用 的 程度 受到 高 速 缓存 线 长 度 的 限制 。 最 后 ， 组 复 用 的 程度 受 一 
个 组 中 共享 该 复 用 的 数组 访问 数目 的 限制 。 














11.5.5”11.5 节 的 练习 


练习 11.5.1: 计算 图 11-20 中 各 个 矩阵 的 秩 。 并 给 出 每 个 矩阵 的 最 大 
线性 独立 列 的 集合 ， 以 及 最 大 的 线性 独立 行 的 集合 。 


0 1 5 | 2 3 4 0 0 1 

1 2 6 5 6 7 8 0 1 1 

2 3 7 9 10 12 15 1 1 1 

3 4 8 或 2 2 3 5 6 S$ 
a) b) C) 


图 11-20 ”计算 这 些 和 矩阵 的 秩 和 零 空 间 
练习 11.5.2: 找 出 图 11-20 中 各 个 和 矩阵 的 零 空 间 的 基本 癌 量 。 


练习 11.5.3: 假设 一 个 迭代 空间 的 维度 (变量 ) 为 i、j 和 Kk。 对 于 下 
面 的 每 个 访问 ， 描 述 指向 下 列 数组 元 素 的 子 空间 : 


1) A [i, j,i+j] 








2) A [ii+Li+2] 
! 3) A [ii，j+k] 
! 4) A [is), j-kki] 


和 ! 练习 11.5.4: 假设 数组 A 按 行 存 放 ， 并 在 下 面 的 循环 藤 套 结构 中 
被 访问 : 


for (i = 0; i < 100; i++) 
or (| = Wi Os jty 
for (kK = 0; Kk < 100; k++) 
< 某 个 对 A 的 访问 > 


对 于 下 列 的 各 个 访问 ， 指 出 是 否 可 能 改写 该 循环 结构 ， 使 得 对 A 的 
访问 具有 目 空 间 复 用 特性 。 也 融 是 说 ， 整 个 高 速 缓存 线 极 连续 使 用 。 如 
果 可 以 ， 指 明 如 何 改写 这 个 循环 。 注 意 ， 对 循环 的 改写 可 以 包括 对 下 标 
变量 重新 排序 或 引入 新 的 循环 下 标 。 但 是 不 能 改变 数组 的 布局 ， 比 如 把 
数组 改 成 按 列 存放 的 。 还 要 注意 的 是 ， 一 般 来 说 ， 循 环 下 标的 重新 排序 
可 能 是 合法 的 ， 也 可 能 是 非法 的 。 我 们 将 在 下 一 市 给 出 判断 重新 排序 古 
个 合法 的 标准 。 但 是 在 这 个 例子 中 ， 因 为 每 个 访问 的 效果 就 是 把 一 个 数 
组 元 又 设置 为 0， 所 以 不 需要 担心 循环 重新 排列 的 效果 会 影响 程序 的 语 

















1) A[i+1,i+k,j] = 0 

! ! 2) A [jtk,i,i]= 0 

3) A [i,j,k,i+j+k] = 0 

! 1! 4) A [i,j-k,i+j,i+k] = 0 


练习 11.5.5: 在 11.5.3 节 中 ， 我 们 说 如 果 最 内 层 循环 只 改变 一 个 数组 
访问 的 最 后 一 个 下 标 值 ， 我 们 就 能 获得 空间 局 部 性 。 但 是 这 个 断言 依赖 
于 : 数组 是 按 行 存放 的 假设 。 如 果 数 组 是 按 列 存 放 的 ， 那 么 什么 样 的 条 
件 可 以 保证 空间 局 部 性 ? 


! 练习 11.5.6: 在 例 11.28 中 ， 我 们 看 到 两 个 相似 的 数组 访问 之 间 是 
个 存在 复 用 很 大 程度 上 依赖 于 特定 的 数组 下 标 表 达 式 。 将 在 例 11.28 中 
观察 到 的 事实 进行 推广 ， 并 决定 对 什么 样 的 函数 f (i，j) ， 访 问 A [Li 
ji+j] 和 A Li+1，j-1，f (i，j) ] 之 间 存 在 复 用 。 


! 练习 11.5.7: 在 例 11.27 中 ， 我 们 指出 ， 如 果 和 窍 阵 Z 的 行 的 长 度 很 
长 ， 以 至 于 不 能 一 起 存放 到 高 速 缓存 中 ， 就 会 产生 更 多 的 不 必要 的 高 速 
0 

? 











11.6 ”数组 数据 依赖 关系 分 析 


并 行 化 或 局 部 性 优化 经 第 对 原 程 夺 中 执行 的 运算 重新 排序 。 和 所 有 
的 优化 一 样 ， 只 有 当 对 运算 的 重新 排序 不 会 改变 程序 输出 时 才 可 以 对 这 
些 运 算 重新 排序 。 一 般 来 说 ， 我 们 不 可 能 深入 理解 一 个 程序 到 底 做 了 什 
么 ， 代 码 优 化 通 第 选用 一 个 较 简 单 的、 保守 的 测试 方法 来 决定 在 什么 时 
候 可 以 肯定 程序 的 输出 不 会 受到 优化 的 影响 :检查 在 原 程序 中 和 在 修改 
后 的 程序 中 ， 对 同一 内 存 位 置 的 各 个 运算 被 执行 的 顺序 是 否 一 样 。 在 当 
0 
子 们 直 .。 


如 果 两 个 访问 〈 不 管 是 读 还 是 写 ) 指向 两 个 不 同 的 位 置 ， 显 然 它们 
是 相互 独立 的 (可 以 被 重新 排序 ) 。 另 外 ， 读 运算 不 会 改变 内 存 的 状 
态 ， 因 此 各 个 读 运算 之 间 是 独立 的 。 根 据 11.5 节 的 介绍 ， 如 果 两 个 访问 
指向 同一 个 内 存 位 置 并 且 其 中 至 少 有 一 个 写 运算 ， 那 么 就 说 这 两 个 访问 
是 数据 依赖 的 。 为 了 保证 修改 后 的 程序 和 原 程序 做 同样 的 事情 ， 每 一 对 
有 数据 依 闲 关 系 的 运算 在 原 程序 中 的 执行 厂 序 必须 在 新 的 程序 中 得 到 人 
村 。 
































回顾 一 下 10.2.1 市 ， 可 知 存在 三 种 类 型 的 数据 依赖 : 

1) 真 依 赖 ， 一 个 写 运算 后 面 跟 一 个 对 同一 个 内 存 位 置 的 读 运 算 。 

2) 有 反 依赖 ， 一 个 读 运 算 后 面 跟 一 个 对 同一 个 内 存 位 置 的 写 运 算 。 

3) 输出 依赖 ， 是 两 个 针对 同一 个 位 置 的 写 运算 。 

在 上 面 的 讨论 中 ， 数 据 依 赖 是 针对 动态 访问 定义 的 。 只 要 一 个 程序 
的 茶 个 静态 访问 的 茶 个 动态 实例 依赖 于 号 一 个 静态 访问 的 茶 个 动态 实 
例 ， 我 们 就 说 第 一 个 静态 访问 依赖 于 第 二 个 静态 访问 与。 

我 们 可 以 很 容易 看 出 数据 依赖 关系 如 何 应 用 到 并 行 化 中 。 比 如 ， 如 
果 在 一 个 循环 的 各 个 访问 之 间 没 有 发 现 数据 依赖 关系， 那么 就 可 以 很 容 


易 地 把 不 同 的 迭代 分 配给 不 同 的 处 理 器 。11.7 节 将 讨论 如 何 系统 化 地 将 
这 个 信息 应 用 到 并 行 化 中 。 








11.6.1 数组 访问 的 数据 依赖 关系 的 定义 


让 我 们 考虑 对 同一 个 数组 的 两 个 静态 访问 ， 它 们 可 能 位 于 不 同 的 循 
环 中 。 第 一 个 访问 用 访问 函数 和 界限 表示 为 .F= <F,f,B,b>， 它 位 于 
一 个 深度 为 d 的 循环 铭 僚 结构 中 ;， 第 二 个 访问 表示 为 了 7= <F',f,B',b'> 
， 它 位 于 一 个 深度 为 的 程序 租 套 结构 中 。 如 末 下 面 的 条 件 成 立 ， 这 两 
个 访问 就 是 数据 依赖 的 。 

1) 它们 中 人 至少 有 一 个 是 写 运算 ， 且 

2) 存在 Z4 中 的 向 量 i 和 2Z4 中 的 向 量 i 使 得 


(GD Bi+b>0 





©Q) B'i'+b>0 

@ Fi+f = F'i'+f’ 

因为 一 个 静态 访问 通常 会 产生 多 个 动态 访问 ， 所 以 考虑 它 的 多 个 动 
态 访 问 是 否 可 能 指 问 同一 个 内 存 位 置 也 是 有 意义 的 。 为 了 寻找 同一 个 静 
态 访问 的 不 同 实例 之 间 的 依赖 关系 ， 我 们 假设 .和 = .天 :并 在 上 面 的 定义 
中 加 入 附加 条 件 i 半 以 剔除 平凡 解 。 


考虑 下 面 的 深度 为 1 的 循环 嵌 套 结构 : 











for (i 


= 1 308 1+t43 
Z[i] = 


Z[i-1]; 
} 


这 个 循环 具有 两 个 数组 访问 : Z [i-1] 和 Z [ij 。 第 一 个 访问 是 读 运 
算 ， 而 第 二 个 访问 是 写 运 算 。 为 了 找到 这 个 程序 中 的 所 有 数据 依赖 关 
ee 目 壬 以 及 上 面 的 读 运 算 之 间 是 否 具 有 
依 人 ; ZN 。， 


1) Z [i-1] 和 2Z [i] 之 间 的 数据 依赖 关系 。 除 了 第 一 个 迭代 ， 
个 迭代 都 会 读 取 前 一 个 迭代 写 入 的 值 。 从 数学 的 角度 看 ， 因 为 存在 整数 











i 和 i 使 得 
1<i<10，1<i<10， 且 i-1=i 


所 以 我 们 知道 它们 之 间 存 在 一 ee 上 面 的 约束 系统 有 九 个 
傈 :5 《X11)， iois2) ， 


2) Z [ij 和 它 自身 之 间 的 依赖 关系 。 可 以 看 到 ， 这 个 循环 的 不 同 
迭代 回 不 同 的 位 置 写 入 数据 。 也 束 是 将， 与 访问 Z [ij 的 各 个 实例 之 间 
不 存在 数据 依赖 天 系 。 从 数学 的 角度 看 ， 因 为 不 存在 整数 i 和 i 满足 条 件 


1<i<10, 1<i'<10, i=i’, 有 izxi 


因此 我 们 知道 实例 之 间 不 存在 依赖 关系 。 请 注意 ， 之 所 以 有 第 三 个 
条 件 i=i 是 因为 要 求 Z_ [ij 和 Z [iY] 必须 在 同一 个 位 置 上 。 和 这 个 条 件 
矛盾 的 第 四 个 条 件 izi 是 因为 要 求 依赖 关系 必须 是 非 平凡 的 一 必须 是 
不 同 动态 访问 之 间 的 依赖 关系 。 


任意 两 个 读 访 问 总 是 独立 的 ， 因 此 不 需要 考虑 上 面 的 读 引 用 Z [i- 
1」 和 和 它 目 身 之 间 的 依赖 关系 。 








11.6.2 ”整数 线性 规划 


对 数据 依赖 关系 的 分 析 要 求 找 出 是 否 存在 一 些 整数 满足 由 等 式 和 不 
等 式 组 成 的 约束 系统 。 其 中 的 等 式 是 从 数组 访问 的 怎 阵 -向 量 表示 中 得 
到 的 ; 不 等 式 是 从 循环 界限 中 得 到 的 。 等 式 可 以 用 不 等 式 表 示 : 等 式 
x=y 可 以 用 两 个 不 等 式 x>y 和 y>x 表 示 。 


因此 ， 数 据 依赖 关 系 问题 可 以 被 表示 为 寻找 满足 一 组 线性 不 等 式 的 
整数 解 ， 这 个 问题 就是 众所周知 的 整数 线性 规划 (integer linear 
programming) 。 整 数 线性 规划 是 一 个 NP 完全 问题 。 虽 然 没 有 已 知 的 多 
项 式 复杂 性 的 算法 ， 但 人 们 研发 了 多 种 启发 式 解 法 来 解决 涉及 很 多 变量 
的 线性 规划 问题 。 这 些 解法 在 很 多 情况 下 运行 得 是 相当 快 的 。 遗 憾 的 
是 ， 这 样 的 标准 启发 式 解法 并 不 适合 数据 依赖 关系 分 析 。 在 数据 依赖 分 
析 中 ， 问 题 的 难点 在 于 如 何 解决 很 多 小 旦 简单 的 整数 线性 规划 ， 而 不 是 
大 型 的 复杂 整数 线性 规划 。 














数据 依赖 关系 分 析 算 法 由 三 个 部 分 组 成 : 


1) 使 用 丢 番 图 方程 的 理论 ， 应 用 GCD (Greatest Common Divisor， 
最 大 公约 数 ) 测试 来 检验 是 否 存在 满足 问题 中 所 有 等 式 的 整数 解 。 如 果 
没有 整数 解 ， 那 么 驶 不 存在 数据 依赖 关系 ， 人 否则 束 用 等 式 来 蔡 换 其 中 的 
某 些 变量 ， 从 而 得 到 较 简 单 的 不 等 式 组 。 


2) 使 用 一 组 简单 的 启发 规则 来 处 理 大 量 的 典型 不 等 式 。 
3) 在 少数 情况 下 ， 这 些 局 发 式 规则 可 能 还 解决 不 了 问题 。 此 时 ， 


我 们 使 用 线性 整数 规划 求解 程序 来 解决 问题 。 这 个 程序 基于 Fourier- 
Motzkin 消 除 算 法 ， 使 用 了 一 种 分 文 并 设 限 的 方法 来 求解 。 


11.6.3 ”GCD 测 试 


第 一 个 子 程 序 检验 是 否 存在 满足 约束 中 各 个 等 式 的 整数 解 。 只 考虑 
整数 解 的 方程 称 为 丢 番 图 方程 (Diophantine equation) 。 下 面 的 例子 说 
明了 只 考虑 整数 解 会 带 来 什么 问题 ， 同 时 它 也 说 明 ， 虽 然 很 多 例子 中 每 
次 只 涉及 单个 循环 藤 套 结构 ， 数 据 依赖 关系 的 公式 表达 还 可 以 被 应 用 到 
位 于 不 同 循环 中 的 数组 访问 。 


考虑 下 面 的 代码 片段 : 


for (i = 1; i < 10; i++) { 


Z[2*i] = .,.; 

} 

for (j = 1; j < 10; j++) + 
Z[2*j+1] = ...; 

} 





访问 Z [2*i]」 只 触及 Z 的 侦 数 号 元 系 ， 而 访问 Z [2*j+1] 只 触及 奇数 号 
元 素 。 显 然 ， 如 果 省 略 号 表示 的 右 部 不 涉及 Z 的 运算 ， 那 么 不 管 循环 的 
界限 如 何 ， 这 两 个 访问 之 间 没 有 数据 依赖 关系 。 我 们 可 以 在 第 一 个 循环 
执行 之 前 束 执 行 第 二 个 循环 ， 或 者 交叉 执行 这 两 个 循环 的 达 代 。 这 个 例 
子 看 起 来 是 人 为 设计 的 、 没 有 实际 意义 ， 其 实 不 然 。 数 组 的 偶数 号 元 系 





与 奇数 号 元 素 航 分 开 处 理 的 一 个 实际 例子 是 复数 数组 ， 其 中 各 个 复数 的 
实 部 和 虚 部 各 占 一 个 元 素 ， 并 列 存放 。 


为 了 证 明 这 个 例子 中 没有 数据 依赖 关系 ， 我 们 做 如 下 论证 。 假 设 存 
在 整数 i 和 和 j 使 得 Z [2*i] 和 Z [2*j+1]」 是 同一 个 数组 元 素 ， 我 们 得 到 于 
番 图 方程 
py | 


没有 整数 :和 j 可 以 满足 上 面 的 方程 。 证 明 如 下 : 如 果 i 是 一 个 整数 ， 
那么 2i 就 是 偶数 。 如 果 j 是 一 个 整数 ， 那 么 2 是 偶数 ， 因 此 2j+1 是 奇数 。 
没有 哪个 偶数 同时 也 是 奇数 。 因 此 ， 这 个 方程 没有 整数 解 ， 因 此 这 两 个 
写 访 问 之 间 没 有 依赖 关系 。 
为 了 描述 一 个 线性 丢 番 图 方程 什么 时 候 有 解 ， 我 们 需要 引入 两 个 或 
多 个 整数 的 最 大 公约 数 的 概念 。 多 个 整数 ai，az，.…，an 的 GCD， 记 为 
gcd (al,az,.…an) ， 是 能 够 整除 这 些 整数 的 最 大 整数 。GCD 可 以 使 用 著 
名 的 欧 几 里 德 算法 ( 见 下 面 的 “ 欧 几 里 德 算法 ”部 分 快速 地 计算 。 
gcd (24,36,54) = 6， 因 为 24/6、36/6 和 54/6 的 余数 都 是 0， 而 
可 大 于 6 的 整数 去 除 24、36、54 时 ， 至 少 有 一 个 余数 非 零 。 比 
如 ，12 能 够 整除 24 和 36， 但 是 不 能 整除 54。 
GCD 的 重要 性 体现 在 下 面 的 定理 中 。 
线性 丢 番 图 方程 


a1X1+a2X2+...+anXn =C 





有 Xi1，x2，,…，xn 的 一 个 整数 解 ， 当 且 仅 当 gcd (a1,a2,…,an)〉 能 够 整除 


Co 


在 例 11.30 中 ， 我 们 看 到 线性 丢 番 图 方程 2i=2j+1 无 解 。 我 们 可 
这 个 方程 号 作 


2i- 2j=1 


现在 gcd (2,-2)〉 =2 且 2 不 能 整除 1。 因 此 方程 无 解 。 


再 看 为 一 个 例子 ， 考 虑 方程 
24x+36y+54z = 30 


因为 gcd (24,36,54) =6 且 30/6=5， 因 此 存在 x、y 和 z 的 整数 解 。 其 中 的 
一 个 解 是 x=-1，y=0 且 z=1， 但 是 存在 无 穷 多 个 其 他 的 解 。 


数据 依赖 关系 问题 的 第 一 步 是 使 用 一 个 诸如 高 斯 消除 算法 的 标准 方 
法 来 求解 给 定 的 方程 组 。 每 构造 出 一 个 线性 方程 ， 就 应 用 定理 11.32 尽 
可 能 地 排除 整数 解 的 存在 。 如 采 我 们 能 够 排除 这 样 的 整数 解 ， 那 么 答案 
就 是 “ 否 ”。 人 否则 我 们 使 用 这 些 方 程 的 解 来 减少 不 等 式 中 的 变量 数目 。 


考虑 两 个 方程 











X-2y+Z=0 
3X+2y+Z = 5 


从 各个 方程 本 里 来 看 是 存在 解 的 。 对 于 第 一 个 方程 ，gcd (1,-2,1) 
=1 能 够 整除 0， 而 对 于 第 二 个 方程 ，gcd〈3,2,1) =1 能 够 整除 5。 但 是 ， 
如 果 我 们 求解 第 一 个 方程 得 到 z=2y-x， 并 以 此 替代 第 二 个 方程 中 的 z， 
我 们 得 到 2x+4y=5。 因 为 gcd 〈2,4) =2 不 能 整除 5， 所 以 这 个 丢 番 图 方程 
无 解 。 














欧 儿 里 德 算法 


欧 几 里 德 算法 按照 下 面 的 方法 找 出 gcd (ab) 的 值 。 首 先 ， 假 设 a 
和 b 为 正 整 数 ， 且 a>b。 请 注意 ， 多 个 负数 的 GCD， 或 一 个 负数 与 一 
个 正 数 的 GCD 等 于 它们 的 绝对 值 的 GCD， 因 此 可 以 假设 所 有 的 整数 
都 是 正 的 。 

如 果 a=b， 那 么 gcd (ab) =a。 如 果 a>b， 令 c 为 ab 的 余数 。 如 果 
c=0， 那 么 b 整 除 a， 因 此 gcd (ab) =b。 和 否则 ， 计 算 gcd (b,c) 得 到 的 
结果 也 是 gcd (ab) 。 


为 了 计算 n>2 时 的 gcd (al,az,..,au) ， 使 用 欧 几 里 德 算 法 来 计算 


gcd (al,a2) =c， 然 后 递归 地 计算 gcd 〈caa,a4，...,an) 。 








11.6.4 ”解决 整数 线性 规划 的 局 友 式 规则 


数据 依赖 关系 问题 需要 求解 很 多 简单 的 整数 线性 规划 问题 。 现 在 我 
们 讨论 处 理 简 单 不 等 式 组 的 几 个 技术 ， 以 及 一 个 可 以 利用 在 数据 依赖 关 
系 分 析 时 发 现 的 相似 性 的 技术 。 

独立 变量 测试 

从 数据 依赖 天 系 分 析 中 得 到 的 很 多 整数 线性 规划 问题 由 多 个 只 涉及 
一 个 未 知 量 的 不 等 式 组 成 。 这 类 规划 问题 的 解法 很 简单 ， 只 需要 分 别 测 
试 常量 上 界 和 御 量 下 界 之 间 是 否 存在 整数 即 可 。 


考虑 嵌 套 循环 结构 








for (i = 0; i <= 10; i++) 
for kj = Di jj <= 10: j++) 
Zi 过 妥 上 有 二 辣 刘 
为 了 找 出 Z [i,j]」 和 Zz Lj+lo,i+l1l] 之 间 是 否 存在 数据 依赖 关系 ， 我 们 考 
虑 是 人 否 存在 整数 ij，j，i 和 j， 使 得 


0<i，j，i，j<10 





i=j'+10 
j=i'+11 


对 其 中 的 方程 应 用 GCD 测 试 可 以 确定 可 能 存在 一 个 整数 解 。 这 些 方 
程 的 整数 解 可 表示 如 下 : 


bet ti 0 





其 中 ，U 和 tb 是 任意 整数 。 把 变量 4 和 tb 代入 上 面 的 线性 不 等 式 ， 我 们 得 
到 


0= t] <10 
0= 1» <10 
0O< i- ll <10 
0< -10 10 


这 样 ， 把 根据 后 两 个 不 等 式 得 到 的 下 界 与 根据 前 两 个 不 等 式 得 到 的 上 界 
组 合 起 来 ， 我 们 推出 








10<t1<10 
11<t»<10 


因为 be 的 下 界 大 于 它 的 上 界 ， 因 此 不 存在 整数 解 ， 也 就 没有 数据 依 
赖 天 系 。 这 个 例子 说 明 ， 即 使 存在 涉及 多 个 变量 的 等 式 ，GCD 测 试 〈 原 
文 如 此 ， 实际 应 该 是 独立 变量 测试 ， 译 者 注 ) 依然 可 以 构造 出 每 个 不 等 
式 只 涉及 一 个 变量 的 线性 不 等 式 组 。 


无 环 测试 

劝 一 个 简单 的 局 发 式 规则 是 寻找 是 否 存在 一 个 其 上 界 或 下 界 为 各 
的 变量 。 在 茶 些 情况 下 ， 我 们 可 以 安全 地 用 区 不 常量 来 从 的 这 个 灾 量 。 
简化 后 的 不 等 式 组 有 一 个 整数 解 当 且 仪 当 原 来 的 不 等 式 组 有 一 个 整数 
解 。 明 确 地 说 ， 假 设 vi 的 每 个 下 界 都 具有 如 下 形式 : 


对 于 某 个 ci>0 ? CO<CiVi 














同时 vi 的 上 界 都 具有 如 下 形式 : 


CiVi<CotC1V1+ a 十 Cj-1Vi-1 十 Ci+1TVi+1 十 Se .十 CnVn 


其 中 ，c 是 非 负 整数 。 那 么 我 们 可 以 把 变量 w 替 换 为 最 小 的 可 能 整数 
值 。 如 果 没 有 这 样 的 下 界 ， 我 们 可 以 把 w 替 换 为-。 类 似 地 ， 如 果 涉 及 
Wi 的 所 有 约束 都 可 以 表示 成 上 面 的 两 种 形式 ， 但 是 不 等 号 的 方向 相反 ， 
那么 我 们 可 以 把 变量 vw 莹 换 为 最 大 的 可 能 整数 值 ， 或 者 在 没有 常量 上 办 
时 替换 为 o%。 可 以 重复 这 个 步 又 对 不 等 式 不 断 化 简 ， 在 某 些 情况 下 可 以 
确定 不 等 式 无 解 


了 考虑 下 面 的 不 等 式 . 











EE Vv] ,VU 二 10 


0 一 73 
Vv» 夺 v] 
vV] v3 +4 


变量 v1 的 下 界 由 v5 确 定 ， 而 上 界 由 v3+4 确 定 。 但 是 ， 界 定 vp 下 界 的 只 有 
常量 1， 界 定 V3 上 界 的 只 有 和 常量 4。 因 此 ， 在 这 些 不 等 式 中 把 v, 亚 换 为 1 
并 把 v3 蔡 换 为 4， 我 们 得 到 





现在 这 个 不 等 式 组 可 以 很 容易 地 使 用 独立 变量 测试 的 方法 求解 。 
循环 残 数 测试 


现在 让 我 们 考虑 每 个 变量 的 上 下 界 都 由 其 他 变量 确定 的 情况 。 在 数 
据 依 赖 分 析 中 经 党 会 碰 到 形 如 visvifc 的 约束 。 这 种 情况 可 以 使 用 Shostak 
提出 的 循环 残 数 测试 〈loop-residue test) 的 一 个 简化 版 本 来 求解 。 这 样 
的 一 组 约束 可 以 用 一 个 有 向 图 表示 。 这 个 图 的 结 点 标号 为 不 等 式 中 的 变 
量 。 对 于 每 一 个 约束 wisvitc， 都 有 一 条 从 结 点 w 到 wj 的 标号 为 c 的 对 应 
边 . 


我 们 把 一 条 路 径 的 权重 (weight) 定义 为 该 路 径 上 所 有 边 的 标号 的 
和 。 图 中 的 每 条 路 径 表 示 此 约束 系统 中 的 一 组 约束 的 组 合 。 也 就 是 说 ， 
只 要 存在 一 条 从 v 到 V' 的 权重 为 c 的 边 ， 我 们 就 可 以 推 产 出 v<sv'+c。 图 中 
的 一 条 权重 为 c 的 环 表示 对 环 中 的 每 个 结 点 V 都 存在 约束 v<v+c。 如 果 我 
们 能 够 在 图 中 找到 一 个 权重 为 钠 的 环 ， 那 么 就 可 以 推断 出 v<v， 而 这 是 
不 可 能 成 立 的 。 此 时 ， 我 们 断定 不 等 式 组 无 解 ， 因 此 也 就 没有 依赖 关 


人 vo 











我 们 也 可 以 把 形 如 c<v 或 vse 的 约束 放 到 循环 残 数 测 试 中 去 ， 这 里 v 
古 一 个 变量 ，c 是 一 个 常量 。 我 们 疝 不 等 式 系统 引入 一 个 新 的 哑 变 量 
Vo。 这 个 哑 变 量 被 加 到 每 个 常量 上 界 和 常量 下 界 上 。 妆 然 vo 的 值 一 定 是 
0， 但 古 因为 循环 残 数 测试 只 寻找 图 中 的 环 ， 变 量 的 实际 值 并 不 重要 。 
为 了 处 理 常 量 上 下 界 ， 我 们 把 


V<C 蔡 换 为 v<vo+c 
c<V 蔡 换 为 vo<vV-c。 





考虑 不 等 式 
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变量 wi 的 常量 上 下 界 变 成 了 vosvi-1 和 Vi<vo+10; Vs 和 vs 的 常量 界限 也 可 
以 做 类 似 的 处 理 。 然 后 ， 把 最 后 一 个 约束 转换 成 vi<v3-4， 我 们 就 得 到 图 
11-21 中 显示 的 图 。 环 vi、va、vo、vVi 的 权重 为 -1， 因 此 这 个 不 等 式 组 无 
解 。 





图 11-21 例子 11. 37 中 的 约束 的 图 形 表示 


记忆 模式 


因为 一 些 简单 的 访问 模式 会 在 整个 程序 中 重复 出 现 ， 我 们 经 常 需 要 
重复 求解 类 似 的 数据 依赖 关系 问题 。 提 高 数据 依赖 关系 的 处 理 速度 的 重 
要 技术 之 一 是 使 用 记忆 模式 (memoization ) 。 这 个 模式 在 生成 一 个 问 
题 的 结果 之 后 就 把 这 个 结果 用 表格 记录 下 来 。 每 次 处 理 此 类 问题 的 时 


候 ， 算 法 都 会 得 询 这 个 表 。 只 有 在 表 中 找 不 到 被 处 理 问 题 的 结果 时 才 需 
要 从 头 求解 这 个 问题 。 


11.6.5 ”解决 一 般 性 的 整数 线性 规划 问题 


现在 我 们 描述 一 个 解决 整数 线性 规划 问题 的 一 般 性 方法 。 这 个 问题 
是 NP- 完 全 的 。 我 们 的 算法 使 用 了 一 个 分 文 -界定 方法 ， 这 种 方法 在 最 坏 
情况 下 花费 的 时 间 为 指数 级 。 但 是 ，11.6.4 节 中 的 局 发 式 规则 未 能 解决 
问题 的 情况 很 少 出 现 。 并 且 即 使 我 们 需要 应 用 本 节 中 的 算法 ， 也 很 少 需 
要 执行 算法 中 的 分 支 -界定 步 又 。 


这 个 方法 首先 检查 不 等 式 组 是 否 存 在 有 理 数 解 。 这 个 问题 是 标准 的 
线性 规划 问题 。 如 果 不 等 式 组 不 存在 有 理 数 解 ， 问 题 中 的 数组 访问 所 触 
及 的 数据 区 域 束 一 定 不 相交 ， 因 此 一 定 不 存在 数据 依赖 关系 。 如 宁 存 在 
有 理 数 解 ， 我 们 首先 试图 证 明 存 在 一 个 整数 解 ( 通 常会 有 这 样 的 解 〉。 
如 果 不 能 证 明 这 一 点 ， 我 们 束 把 这 个 不 等 式 组 界定 的 多 面体 分 割 为 两 个 
较 小 的 问题 ， 并 递归 地 解决 问题 。 


考虑 下 面 的 简单 循环 : 


for (i = 1; i < 10; i++) 
Z[i] = Z[i+10]; 











访问 Z [i] 所 触及 的 元 素 是 Z [1] 、...、Z [9] ， 而 访问 Z_ [Li+10] 所 
触及 的 元 素 是 Z [11] 、...、Z [19] 。 这 两 个 范围 并 不 相交 ， 因 此 不 
存在 数据 依赖 关系 。 更 严格 地 讲 ， 我 们 需要 说 明 不 存在 两 个 动态 访问 i 
和 ji 满足 1<i<9，1x<i<9 且 i=i+10。 如 果 存 在 这 样 的 整数 ji 和 1， 那么 可 以 用 
i+10 来 蔡 代 i， 并 得 到 四 个 关于 ij 的 约束 : 1<i<9 和 1<i+10<9。 但 是 ，iY 
+10<9 列 含 i<-1， 这 和 1<i 和 矛盾 。 因 此 不 存在 这 样 的 整数 ij 和 i。 


算法 11.39 描 述 了 如 何 基于 Fourier-Motzkin 消 除 算 法 来 确定 是 否 可 以 
找到 一 组 线性 不 等 式 的 整数 解 。 


整数 线性 规划 问题 的 分 支 界 定 解法 。 
输入: 一 个 变量 w，.…，w 上 的 多 面体 S,。 








输出 : 如 果 S$ 有 一 个 整数 解 ， 输 出 *yes”， 否 则 输出 “no”。 
方法 : 图 11-22 中 给 出 的 算法 。 


对 Sn 应 用 算法 11.11 ， 把 变量 
Un Un—1l,... ,Ul 按 顺 序 通过 投影 消除 ; ) 

令 9; 为 通过 投影 消除 掉 Vi+1 之 后 得 到 的 多 面体 ， 其 中 
t=n 1,n—m2,....,0; 

if So 为 空 return “no” 
i 如 果 只 涉及 常量 的 So 具有 不 可 满足 的 约束 ， 
就 不 存在 有 理 数 解 */ 

for (i = 1;i < n;it++) { 
让 (5; 不 包含 整数 解 ) break; 
令 ci 为 5; 中 vi 的 取 值 范围 正中 的 整数 值 ; 


把 vi 赫 换 为 c;， 修 改 Si ; 


} 

if (i == n+1) return “yes”; 

if (i == 1) return “no”; 

今 5; 中 vw; 的 下 界 和 上 界 分 别 为 l; 和 wi; 

对 Sn U {vi < [tj} 和 Sh U {vi 之 fui]} 递归 应 用 
这 个 算法 且 Sn U {vi > [uil]}; 


证 ( 有 一 个 结果 为 “yes”) return “yes”else return “no”; 





图 11-22 ”寻找 不 等 式 的 整数 解 


第 1 行 到 第 3 行 试图 找 出 不 等 式 组 的 一 个 有 理 数 解 。 如 果 没 有 有 理 数 
解 ， 就 没有 整数 解 。 如 果 找 到 一 个 有 理 数 解 ， 束 表 明 这 个 不 等 式 组 定义 
了 一 个 非 空 的 多 面体 。 这 样 的 一 个 多 面体 不 包含 整数 解 的 情况 相对 较 少 
一 一 要 是 出 现 这 种 情况 ， 这 个 多 面体 在 茶 些 维度 上 必然 很 薄 ， 而 且 位 于 
整数 点 之 间 。 


因此 ， 第 4 行 到 第 9 行 试 图 快速 检查 是 否 存在 一 个 整数 解 。Fourier- 
Motzkin 消 除 算 法 的 每 一 步 都 会 产生 一 个 多 面体 ， 其 维度 比 前 一 个 多 面 
体 的 维度 小 1。 我 们 反 回 考虑 这 些 多 面体 。 我 们 从 只 有 一 个 变量 的 多 面 
体 开 始 ， 在 可 能 的 情况 下 ， 癌 这 个 变量 赋予 一 个 大 概 处 于 它 的 取 值 范围 
中 间 的 整数 值 。 然 后 ， 我 们 在 所 有 其 他 的 多 面体 中 用 这 个 值 来 蔡 代 这 个 
变量 ， 把 这 些 多 面体 的 未 知 量 的 数目 减 一 。 不 断 重 复 这 个 过 程 ， 直 到 所 
有 的 多 面体 都 得 到 人 处理， 或 者 找到 了 一 个 没有 整数 解 的 变量 。 在 前 一 种 














情况 下 ， 我 们 可 以 找到 一 个 整数 解 。 


如 末 我 们 甚至 不 能 为 第 一 个 变量 找到 整数 值 ， 那 么 整个 不 等 式 组 束 
不 存在 整数 解 〈 第 10 行 ) 。 否 则 ， 我 们 所 知道 的 全 部 情况 就 是 没有 哪个 
整数 解 会 包含 至 今 为 止 我 们 为 一 些 变 量 选 择 的 特定 整数 值 。 这 个 结论 不 
征 决 定性 的 。 第 11 行 到 第 13 行 表示 算法 的 分 支 - 界 定 步骤 。 如 果 发 现 变 
量 vi 具 有 有 理 数 解 但 是 没有 整数 解 ， 就 把 问题 中 的 多 面体 分 成 两 个 多 面 
体 ， 第 一 个 要 求 w 必 须 是 小 于 已 找到 的 有 理 数 的 整数 ， 第 二 个 要 求 vi 必 
须 是 一 个 大 于 此 有 理 数 解 的 整数 。 如 有 果 两 个 多 面体 都 没有 整数 解 ， 那 么 
就 不 存在 依赖 关系 。 


11.6.6 “小 结 


我 们 已 经 说 明 一 个 编译 器 能 够 从 数组 引用 中 收集 到 的 信息 的 主要 音 
分 和 茶 些 标准 数学 概念 等 价 。 给 定 一 个 访问 函数 .8Z= <F,f,B,b >: 


1) 被 访问 的 数据 区 域 的 维 肛 由 和 矩阵 F 的 秩 给 出 。 访 问 同一 位 置 的 访 
问 空间 的 维度 就 是 FE 的 零 数 。 如 果 两 个 迭代 癌 量 的 差 值 属于 FE 的 零 空 间 ， 
那么 这 两 个 迭代 指 岗 同一 个 数组 元 素 。 


2) 同一 个 数组 访问 的 具有 目 时 间 复 用 关系 的 多 个 迭代 之 间 的 差距 
征 F 的 零 空 间 中 的 问 量 。 目 空间 复 用 可 以 用 类 似 的 方式 计算 得 到 ， 但 不 
古 考 虑 两 个 沈 代 何 时 使 用 同一 个 元 系 ， 而 是 考虑 它们 何 时 使 用 同一 行 元 
素 。 两 个 访问 Fii+fi 和 Fis+f 沿 着 疝 量 d 的 方 铝 具有 易于 利用 的 局 部 性 ， 
其 中 d 是 方程 Fd= (fi1-f,〉 的 菏 个 解 。 特 别 是 当 d 的 方 加 和 最 内 层 循环 对 
应 时 ， 即 d 为 向 量 [0,0,.….,0,1」 时 ， 如 果 数 组 是 按 行 存放 的 ， 那 么 就 会 
存在 空间 局 部 性 。 


3) 数据 依赖 关系 问题 两 个 引用 是 否 可 能 指向 同一 个 位 置 
和 整数 线性 规划 等 价 。 两 个 访问 函数 之 间 具 有 数据 依赖 关系 的 条 件 是 存 
在 值 为 整数 的 向 量 i 和 i'"， 使 得 Bi>20，B'i'?>20， 并 且 Fi+f=F'i'+f'。 
































11.6.7 11.6 节 的 练习 


练习 11.6.1: 找 出 下 列 整数 集合 的 GCD: 
1) {16,24,56}。 

2) {-45,105,240}。 

! 3) {84,105,180,315,350} 。 

练习 11.6.2: 对 于 下 面 的 循环 


for (i = 0; i < 10， i++) 
A[i] = A[10-i]; 
间 出 所 有 的 





1) 真 依赖 关系 〈 即 写 运算 后 跟着 对 同一 个 位 置 的 读 运算 ) 。 
2) 反 依 赖 关 系 《〈 即 读 运算 后 跟着 对 同一 个 位 置 的 写 运算 ) 。 


3) 输出 依赖 关系 〈 即 写 运算 后 跟着 对 同一 个 位 置 的 男 一 个 写 运 


! 练习 11.6.3: 在 介绍 欧 几 里 得 算法 的 部 分 中 ， 我 们 未 经 证 明 就 给 
出 了 一 些 断 言 。 证 明 下 面 的 每 一 个 断言 : 


1) 该 部 分 所 述 的 欧 几 里 得 算法 总 是 能 够 工作 。 特 别 地 ，gcd (b,c) 
=gcd (ab) ， 其 中 c 是 ab 的 非 零 余 数 。 


2) gcd (ab) =gcd (a,-b) 。 





3) 当 n>2 时 ，gcd (al,ay,...an) =gcd (gcd (a1,a2) ,aa .an) 。 


4) GCD 实 际 上 是 一 个 整数 集合 上 函数 ， 即 整数 的 顺序 并 不 重要 ，。 
说 明 GCD 的 交换 率 : gcd (ab) =gcd (b,a) 。 然 后 证 明 更 加 困难 的 结 
论 ， 即 GCD 的 结合 律 : gcd (gcd (ab) ,c) =gcd (a,gcd (b,c) ) 。 最 
后 ， 说 明 上 述 这 些 定律 理 含 了 下 面 的 性 质 ; 不管 按照 什么 样 的 顺序 来 计 
算 各 个 整数 对 的 GCD， 得 到 的 一 个 整数 集合 的 GCD 总 是 相同 的 。 


5) 如 果 $ 和 T 都 是 整数 集合 ， 那 么 gcd (SUT) 
=gcd (gcd (S) ,gcd (T) ) 。 


! 练习 11.6.4: 找 出 例 11.33 中 的 第 二 个 丢 番 图 方程 的 另 一 个 解 。 
练习 11.6.5: 在 下 面 的 情况 中 应 用 独立 变量 测试 。 循 环 航 套 结构 是 
for (i=0; i<100; i++) 
for (j=0; j<100; j++) 
for (k=0; k<100; k++) 


在 巷 套 线 构 中 是 一 个 关于 数组 访问 的 赋值 语句 。 确 定 下 面 的 每 一 个 语句 
征 否 会 引起 茶 些 数据 依赖 关系 。 





1) A[i,j,k] = A[i+100,j+100,k+100] 
2) A[i,j,k] = A[j+100,k+100,i+100] 
3) A[i,j,k] = A[j-50,k-50,i-50] 


4) A[i,j,k] = A[i+99,k+100,j] 


练习 11.6.6: 在 下 面 的 约束 中 ， 通 过 把 x 蔡 换 为 y (原文 如 此 ， 译 者 
注 ) 的 常量 下 界 来 消除 x。 


1<x<y-100 
3<x<2y-50 
练习 11.6.7: 对 下 面 的 约束 集合 应 用 循环 残 数 测试 : 
0<x<99  Vy<X-50 
0<y<99 z<y-60 
0<z<99 
练习 11.6.8: 对 下 面 的 约束 集合 应 用 循环 残 数 测试 : 


1<x<99 y<x-50 


0<y<99 z<y+40 
0<z<99 x<z+20 
练习 11.6.9: 对 下 面 的 约束 集合 应 用 循环 残 数 测试 : 
0<X<99 y<x-100 
0<y<99 z<y+60 


0<z<99 x<z+50 


11.7 寻找 无 同步 的 并 行 性 


我 们 已 经 得 到 了 关于 仿 射 数组 访问 ， 访 问 之 间 对 数据 的 复 用 ， 以 及 
它们 之 间 的 依赖 天 系 的 理论 。 现 在 我 们 将 应 用 这 些 理论 来 对 实际 程序 进 
行 并 行 化 及 优化 处 理 。 如 11.1.4 市 中 所 讨论 的 ， 在 找到 并 行 性 的 同时 保 
证 处 理 占 之 间 通 信和 量 的 最 小 化 是 很 重要 的 。 我 们 首先 研究 如 何在 完全 不 
允许 处 理 器 之 间 进 行 通信 或 同步 的 情况 下 实现 并 行 化 的 问题 。 这 个 约束 
可 能 看 起 来 像 是 一 个 纯 学 术 的 练习 ， 我 们 有 多 大 的 机 会 会 碰 到 具有 这 种 
形式 的 并 行 性 的 程序 或 过 程 ? 实际 上 ， 在 现实 生活 中 存在 很 多 这 样 的 程 
序 ， 因 此 解决 这 个 并 行 化 问题 的 算法 本 身 就 是 有 用 的 。 另 外 ， 可 以 扩展 
解决 这 个 问题 时 使 用 的 概念 以 处 理 同步 和 通信 。 




















11.7.1 一 个 介绍 性 的 例子 


图 11-23 中 显示 的 是 从 一 个 5000 行 的 Fortran 代 码 程 序 中 摘录 的 并 以 C 
语言 表示 的 程序 片段 。 为 清晰 起 见 ， 代 码 中 仍然 保留 了 Fortran 风 格 的 数 
组 访问 语法 。 原 来 的 程序 实现 了 用 来 解决 三 维 欧 拉 方 程 的 多 重 网 格 算 
法 。 这 个 程序 的 大 部 分 运行 时 间 都 花费 在 少数 几 个 如 图 所 示 的 子 程序 
上 。 它 是 很 多 数值 程序 的 典型 代表 。 这 些 数值 程序 经 常 由 很 多 处 在 不 同 
舱 套 层次 上 的 for 循 环 组 成 。 它 们 包含 了 很 多 数组 访问 ， 所 有 数组 访问 的 
下 标 都 是 外 围 循环 下 标的 仿 射 表 达 式 。 为 了 使 这 个 例子 比较 简短 ， 我 们 
己 经 从 原来 的 程序 中 删除 了 一 些 具 有 类 似 性 质 的 代码 行 。 











for (j = 2; j <= j1; j++) 
for (i = 2, i <= il, i++) { 


AP[j,i] 1 

下 = 1.0/(1.0 + AP[j,i]); 
D[2,j,i] = T*AP[j,i]; 
DW[1,2,j,i] = T*DW[1,2,j,i]; 


: 
for (k = 3; k <= kl-1; k++) 
for (j = 2; j <= jl1; j++) 
for (i = 2; i <= il; i++) { 


AM[Lj ,i] = AP[j,i]; 

AP[j,i] = ...; 

T = ...AP[j,i] - AM[j,i]*D[k-1,j,i]...; 
D[k,j,i] = T*AP[j,i]; 

DW[1,k,j,i] = T*(DW[1,k,j,i] + DW[1,k-1,j,i])...; 


} 


for (Kk = Kl-1* kK >= 2; Kk--) 
for (j = 2; j <= jl1; j++) 
for (i = 2; i <= il; i++) 
DW[1,k,j,i] = DW[1,k,j,i + D[k,j,i]*DW[1,k+1,j,i]; 








图 11-23 ”一 个 多 重 网 格 算法 的 代码 片断 


图 11-23 的 代码 在 一 个 标量 变量 T 和 一 些 具有 不 同 维度 的 多 个 数组 上 
运行 。 我 们 首先 来 看 一 下 对 变量 TI 的 使 用 。 因 为 一 个 循环 中 的 每 个 迭代 
使 用 同一 个 变量 T， 我 们 不 能 并 行 执行 这 些 迭 代 。 但 是 T 只 是 用 于 存放 
在 一 个 迭代 中 使 用 两 次 的 公共 子 表达 式 的 值 。 在 图 11-23 中 的 前 两 个 循 
环 嵌 套 中 ， 最 内 层 循 环 的 各 个 迭代 同 T 中 写 入 一 个 值 ， 然 后 立刻 在 同一 
个 迭代 中 两 次 使 用 这 个 值 。 我 们 可 以 把 对 T 的 每 次 使 用 蔡 换 为 前 面 对 T 
的 赋值 语句 的 右 部 表达 式 ， 从 而 在 不 改变 程序 语义 的 前 提 下 消除 依赖 关 
系 。 我 们 也 可 以 把 标量 T 蔡 换 为 一 个 数组 。 然 后 我 们 让 每 个 迭代 (j,i) 
使 用 它 目 己 的 数组 元 素 T [ji] 。 


经 过 这 样 的 修改 ， 每 个 赋值 语句 中 对 一 个 数组 元 素 的 计算 只 依赖 于 
最 后 两 个 下 标 分 量 值 〈 分 别 是 j 和 i) 相同 的 其 他 数组 元 素 。 因 此 ， 我 们 
可 以 把 对 各 个 数组 的 第 (j,i) 个 元 素 进 行 操作 的 所 有 运算 组 合成 为 一 个 
计算 单元 ， 并 按照 原来 的 串 行 顺序 执行 它们 。 这 个 修改 产生 了 (j1-1) 
x (i1-1) 个 相互 独立 的 计算 单元 。 请 注意 ， 原 程序 里 第 二 和 第 三 个 循环 
骨 套 结构 涉及 下 标 为 k 的 第 三 个 循环 。 但 是 ， 因 为 具有 同样 的 j 和 i 值 的 动 
态 访 问 之 则 不 存在 依赖 关系 ， 所 以 可 以 安全 地 在 j 和 i 的 循环 内 部 一 一 就 
是 说 在 一 个 计算 单元 中 执行 k 的 循环 。 



































知道 这 些 计算 单元 是 独立 的 ， 我 们 就 可 以 对 代码 进行 多 个 合法 的 转 
换 。 比 如 ， 一 个 单 处 理 器 系统 可 以 不 按照 原来 的 代码 执行 ， 而 是 逐个 执 
行 独立 的 运算 单元 ， 最 终 完 成 同样 的 计算 工作 。 转 换 所 得 代码 显示 在 图 
11-24 中 。 这 个 代码 具有 更 好 的 时 间 局 部 性 ， 因 为 计算 中 生成 的 结果 芯 
刻 就 被 用 挥 了 。 

















for (j = 2; j <= jl1; j++) 
for (i = 2; i <= il; i++) { 


AP[j,i] 
T[j,i] = 1.0/(1.0 + AP[j,i]); 
D[2,3 ,2 = T[j,i]*AP[j,i]; 
DW[1,2,j,i] = T[j,i]*DW[1,2,j,i]; 
for (k = 3; k <= kl-1; k++) { 
AM[j,i] = AP[Ij,i]; 
AP[j,i] | 
工 加 ,了 = ...AP[j,i] - AM[j,ij*D[k-1,j,i]...; 
D[k,j,i] = T[j,i]*AP[j,i]; 
DW[1,k,j,i] = TLj,i]*(DW[1,k,j,i] + DW[i,k-1,j,i])...; 
} 


for (k = kl-1i; k >= 2; k--) 
DW[1,k,j,i] = DW[i,k,j,i] + D[k,j,i]*DW[i,k+1,j,i]; 
Es 








图 11-24 经 过 改写 的 图 11-23 的 代码 ， 最 外 层 是 并 行 循环 


这 些 独 立 的 计算 单元 也 可 以 被 分 配给 不 同 的 处 理 器 并 行 执行 。 这 些 
处 理 器 之 间 不 需要 任何 同步 或 通信 。 因 为 有 (jl-1) x (i1-1) 个 相互 独 
立 的 计算 单元 ， 我 们 最 多 可 以 利用 (j1-1) x (i1-1) 个 处 理 器 。 我 们 可 
以 按照 二 维 数组 的 方式 组 织 处 理 器 ， 每 个 处 理 器 的 ID 是 (j,i )， 其 中 
2<j<j1，2<i<i1。 由 各 个 处 理 器 执行 的 SPMD 程 序 就 是 图 11-24 中 的 内 层 
循环 的 循环 体 。 


上 面 的 例子 说 明了 寻找 无 同步 的 并 行 性 的 基本 方法 。 我 们 首先 把 计 
算 任务 分 解 成 尽 可 能 多 的 独立 单元 。 这 个 分 解 揭 示 了 可 行 的 调度 选择 。 
然后 ， 我 们 依照 拥有 的 处 理 需 数目 把 这 些 计算 单元 分 配给 各 个 处 理 器 。 
最 后 ， 我 们 生成 一 个 在 各 个 处 理 器 上 执行 的 SPMD 程 序 。 





11.7.2 和 仿 射 至 间 耸 划 





如 果 一 个 循环 馈 僚 结构 内 部 具有 k 个 可 并 行 化 的 循环 ， 那 么 这 个 循 
环 众 套 结 构 就 有 k 度 的 并 行 性 。 一 个 可 并 行 化 循环 的 不 同和 迭代 之 间 不 存 
在 数据 依赖 和 关系。 比如， 图 11-24 中 的 代码 就 具有 2 上 度 并 行 性 。 把 具有 k 
度 并 行 性 的 计算 任务 分 配给 一 个 k 维 的 处 理 器 阵列 是 很 方便 的 。 


一 开始 ， 我 们 将 假设 处 理 器 阵列 的 每 个 维度 上 的 处 理 吉 数目 和 相应 
循环 的 磊 代 个 数 一 样 多 。 在 找到 所 有 这 些 独立 计算 单元 后 ， 我 们 将 把 这 
些 “ 虚 拟 ” 处 理 器 映射 到 实际 的 处 理 器 上 。 在 实践 中 ， 每 个 处 理 器 要 负责 
0 0 








我 们 把 需要 并 行 化 的 程序 分 解 成 为 类 似 于 三 地 址 语句 这 样 的 基本 语 
句 。 对 于 每 个 语句 ， 我 们 找 出 一 个 仿 射 空 间 分 划 (affine space 
partition) 。 这 个 分 划 把 这 些 语句 的 各 个 动态 实例 映射 到 一 个 处 理 器 
ID。 这 些 动态 实例 使 用 其 循环 下 标 来 标记 。 


如 上 面 所 讨论 的 ， 图 11-24 的 代码 具有 2 度 的 并 行 性 。 我 们 把 
了 列 看 作 一 个 二 维 空间 。 令 (pi,p2) 为 这 个 阵列 中 的 一 个 处 理 器 
的 ID。 在 11.7.1 节 中 所 讨论 的 并 行 化 方案 可 以 使 用 一 个 简单 的 仿 射 分 划 
函数 来 描述 。 在 第 一 个 循环 嵌 套 结构 中 的 所 有 语句 都 有 下 面 的 仿 射 分 
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寻找 无 同步 并 行 性 的 算法 由 三 个 步 又 组 成 


1) 为 程序 中 的 每 个 语句 寻找 一 个 能 够 最 大 化 并 行 性 度数 的 仿 射 分 
划 。 请 注意 ， 我 们 通常 把 语句 而 不 是 单个 访问 ) 作为 计算 的 单元 。 对 
于 一 个 语句 中 的 所 有 访问 必须 应 用 同样 的 仿 射 分 划 。 这 种 对 访问 的 分 组 
方法 是 有 意义 的 ， 因 为 在 同一 个 语句 中 的 访问 之 间 几 乎 总 是 存在 依赖 天 


人 vo 


2) 在 处 理 右 之 间 分 配 由 第 1 步 得 到 的 独立 计算 单元 ， 并 选择 在 每 个 
0 
部 性 。 


3) 生成 一 个 将 在 各 个 处 理 器 上 执行 的 SPMD 程 序 。 


下 面 我 们 将 讨论 如 何 寻找 仿 射 分 划 函 数 ， 如 何 生 成 一 个 顺序 程序 来 
串 行 执行 各 个 分 划 ， 以 及 如 何 生 成 一 个 在 不 同 处 理 器 上 执行 各 个 分 划 的 
SPMD 程 序 。 在 从 11.8 节 到 11.9.9 节 讨论 了 如 何 处 理 带 有 同步 的 并 行 性 之 
后 ， 我 们 将 在 11.10 节 回 到 上 面 的 第 2 步 ， 并 讨论 如 何 针 对 单 处 理 器 和 多 
处 理 器 系统 进行 局 部 性 优化 。 


11.7.3 ”空间 分 划 约 束 


因为 要 求 没 有 通信 ， 所 以 每 一 对 具有 数据 依赖 关系 的 运算 都 必须 被 
分 配 在 同一 个 处 理 袁 上 。 我 们 把 这 些 约束 称 为 “空间 分 划 约 束 "”。 任 何 满 
足 这 些 约束 的 映射 所 创建 的 分 划 都 是 相互 独立 的 。 请 注意 ， 只 要 把 所 有 
运算 都 放 到 一 个 分 划 单 元 ， 束 可 以 满足 这 样 的 约束 。 遗 憾 的 是 ， 这 样 
的 “ 解 ” 没 有 给 出 任何 并 行 性 。 我 们 的 目标 是 在 满足 这 些 空间 分 划 约 束 的 
同时 得 到 尽 可 能 多 的 独立 分 划 。 也 惑 是 说 ， 只 有 在 必要 的 时 候 才 会 把 不 





同 的 运算 放 到 同一 个 处 理 器 上 。 


当 我 们 限制 目 己 只 考虑 仿 射 分 划 时 ， 可 以 将 并 行 性 的 度数 《“ 即 维 
度 ) 最 大 化 ， 而 不 是 将 独立 单元 的 数目 最 大 化 。 如 果 我 们 使 用 分 段 
(piecewise) 仿 射 分 划 ， 有 时 有 可 能 创建 出 更 多 的 独立 单元 。 一 个 分 段 
仿 射 分 划 把 单个 访问 的 实例 分 割 成 为 不 同 的 集合 ， 并 人 允许 对 每 个 集合 使 
用 不 同 的 仿 射 分 划 。 但 是 这 里 我 们 不 考虑 这 样 的 选项 。 

正式 地 讲 ， 一 个 程序 的 仿 射 分 划 是 无 同步 的 (synchronization free) 
当 且 仅 当 对 于 两 个 具有 数据 依赖 关系 的 不 一 定 不 同 的 ) 访问 ， 即 在 循 
环 藤 套 结构 di 中 的 语句 si 中 的 访问 和 1=<F1，fi,B1,b1> 和 循环 柑 套 结构 d， 
中 的 语句 ss 中 的 访问 务 = <F, 记 ,Bs,b,>， 对 语句 s1 和 s5 的 分 划 <Ci,c1> 
和 <C>,co> 满 足下 面 的 空间 分 划 约 束 《space-partition constraint) : 


。 对 于 所 有 满足 下 列 条 件 的 Z4 中 的 ii 和 Z 的 ij; 











1) Biii+b1>0 
2) Bi,+b,>0 


Ci1ii+cj=C>i+co 一 定 成 也 o 





的 目标 是 为 每 个 语句 找 出 满足 这 些 约 束 的 具有 最 高 秩 的 
分 划 。 

图 11-25 中 的 图 说 明了 空间 分 划 约 束 的 本 质 。 假 设 有 两 个 静态 访问 
分 别处 于 两 个 循环 磐 套 结构 中 ， 它 们 的 下 标 回 量 分 别 为 1 和 ip 。 假 设 它 
们 共同 访问 了 至 少 一 个 数组 元 素 ， 且 至 少 其 中 之 一 是 写 运算 ， 那 么 它们 
之 间 具 有 依赖 关系 。 根 据 仿 射 访问 函数 Fjij+fi1 和 F,i,+f,， 该 图 显示 了 在 
这 两 个 循环 中 恰巧 访问 同一 个 数组 元 素 的 动态 访问 。 除 非 这 两 个 静态 访 
问 的 仿 射 分 划 Cii+c; 和 C2i+c> 把 它们 的 动态 访问 分 配 到 同一 个 处 理 需 
上 ， 人 否则 不 同 处 理 堪 之 间 必 须 进 行 同步 。 
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图 11-25 ”空间 分 划 约 束 


如 果 我 们 选择 一 个 仿 射 分 划 ， 它 的 秩 为 所 有 语句 的 秩 的 最 大 值 ， 那 
么 就 得 到 了 最 大 可 能 的 并 行 性 。 但 是 ， 在 这 种 划分 下 ， 有 些 处 理 器 有 时 
可 能 会 空 凋 ， 而 其 他 处 理 需 却 忙于 执行 那些 具有 较 小 秩 的 仿 射 分 划 的 语 
句 。 如 采 执 行 这 坚 语句 的 时 间 相 对 较 短 ， 这 种 情况 还 是 可 接受 的 。 合 
人 

0 印 可 。 


在 例 11.41 中 ， 我 们 给 出 了 一 个 用 于 说 明 这 个 技术 的 功能 的 小 程 
序 。 实 际 应 用 通常 要 比 这 个 程序 简单 ， 但 是 它们 的 边界 条 件 可 能 和 这 里 
显示 的 一 些 问题 类 似 。 我 们 将 在 本 章 的 各 个 部 分 使 用 这 个 例子 来 说 明 下 
面 的 事实 : 具有 仿 册 访问 的 程序 共有 相对 简单 的 空间 分 划 约 束 ， 这 些 约 
束 可 以 通过 标准 线性 代数 技术 来 解决 ， 并 且 最 终 需 要 的 SPMD 程 序 能 够 
从 仿 射 分 划 中 机 械 化 地 生成 。 


这 个 例子 说 明了 我 们 如 何 把 一 个 程序 的 空间 分 划 约 束 用 公式 
米 。 这 个 程序 显示 在 图 11-26 中 ， 它 由 具有 两 个 语句 s1 和 s, 的 小 循 
环 肉 套 结 构 组 成 。 











for (i = 1; i <= 100; i++) 
for (j = 1 
X[i,j] 
] 


3 <= 1003 j+1) 4 
Xlisil + Ylistsjls 7 (al) a 


Y[i,j] = Y[i,j] + X[i,j-1]; /* (s2) */ 





图 11-26 一 个 用 以 说 明 相 互 依赖 的 长 运算 链 的 循环 嵌 套 结构 

我 们 在 图 11-27 中 显示 了 程序 中 的 数据 依赖 关系 。 在 图 中 ， 每 个 黑 
点 表示 语句 Si 的 一 个 实例 ， 而 每 个 白 点 表示 了 语句 s 的 一 个 实例 。 在 坐 
标 〈ibj) 处 的 点 表示 该 语句 在 下 标 变 量 的 取 值 为 (ijj) 时 的 实例 。 但 是 
请 注意 ，s> 的 实例 位 于 对 应 于 相同 (ij ) 对 的 Si 的 实例 的 下 方 ， 因 此 图 
中 对 应 于 j 的 垂直 刻度 要 比 对 应 于 i 的 水 平 刻 度 长 。 


j =3 - 
2 py 


i 











图 11-27 例 11.41 的 代码 中 的 依赖 关系 





请 注意 ，X [i,j」 是 由 st (i,j) 写 入 的 ，s1 (i,j) 就 是 语句 $1 对 应 于 
循环 下 标 值 和 j 的 实例 。 之 后 它 被 s，。(i,j+1) 读 出 ， 因 此 s1 (i,j)〉 必 须 在 
s> (i,j+1) 之 前 执行 。 这 个 事实 解释 了 图 中 从 黑 点 到 白 点 的 垂直 箭头 。 
类 似 地 ，Y [i,j」] 被 s (Cij) 写 入 再 由 sl1 (i+1,j) 读 出 ， 这 个 事实 解释 了 
从 和 白 点 到 黑 点 的 箭头 。 


从 图 中 很 容易 看 出 ， 代 码 可 以 被 并 行 化 为 无 同步 关系 的 儿 个 部 分 ， 





方法 是 把 各 个 相互 依赖 的 运算 链 分 配给 同一 个 处 理 器 。 但 是 ， 写 出 一 个 
实现 这 样 的 映射 方案 的 SPMD 程 序 并 不 容易 。 在 原来 的 程序 中 每 个 循环 
有 100 个 迭代 ， 因 此 存在 200 个 运算 链 。 在 这 些 运算 链 中 ， 其 中 的 一 半 由 
si 开始 并 以 s1 结 束 ， 另 一 半 从 S 开 始 并 以 s 结 束 。 这 些 链 的 长 度 从 1 一 100 
个 迭代 不 等 。 


因为 有 两 个 语句 ， 所 以 我 们 需要 为 每 个 语句 寻找 一 个 仿 射 分 划 。 我 
们 只 需要 表示 出 一 维 仿 射 分 划 的 空间 分 划 约 束 。 这 些 约 束 稍 后 将 由 试图 
寻找 所 有 独立 的 一 维 仿 射 分 划 的 解 方法 所 使 用 。 这 个 方法 还 将 把 这 些 一 
维 分 划 组 合 起 来 得 到 多 维 仿 射 分 划 。 因 此 ， 我 们 可 以 把 每 个 语句 的 仿 射 
分 划 表示 为 一 个 1x2 的 矩阵 和 一 个 1x1 的 向 量 ， 并 把 下 标 向 量 [ij] 转换 
成 为 一 个 处 理 器 的 编号 。 令 < [C1i1C12J ， [cij >， < ee ， [cj > 
分 别 为 语句 s1 和 s, 的 一 维 仿 射 分 划 。 


我 们 将 应 用 六 个 数据 依赖 测试 : 
1) 语句 $1 中 的 写 访问 X [Li，jj 和 其 自身 之 间 的 依赖 关系 。 


2) 语句 sj 中 的 写 访问 X [i，j] 和 读 访问 X [i, jj 之 间 的 依赖 关 


3) 语句 si 中 的 写 访 问 X [Li，jj 和 语句 sz 中 的 读 访 问 X [Li，j-1] 之 
间 的 依赖 关系 。 


4) 语句 ss 中 的 写 访问 Y Li，jj 和 其 自身 之 间 的 依赖 关系。 


5) 语句 s, 中 的 写 访问 Y [i，j] 和 读 访问 Y [i, jj 之 间 的 依赖 关 


6) 语句 ss 中 的 写 访问 Y Li，jj」 和 语句 Si 中 的 写 访问 Y Li-1, jj] 之 
间 的 依赖 关系 。 


我 们 可 以 看 到 ， 这 些 依赖 关系 测试 都 很 简单 ， 而 且 高 度 重 复 。 这 个 
代码 中 出 现 的 依赖 关系 发 生 在 第 〈3) 种 情况 下 访问 X Li, jj」 和 X [Li， 
j-1] 的 实例 之 间 以 及 第 〈6) 种 情况 下 访问 Y [i, jj」 和 Y [i-1, jj 的 实 
例 之 间 。 




















由 语句 si 中 的 X [i,，j]」 和 ss 中 的 X [i，j-1] 之 间 的 数据 依赖 关系 而 
导致 的 空间 分 划 约 束 可 以 表示 成 下 列 各 项 : 


对 于 所 有 满足 下 面条 件 的 (i, j) 和 (i,j) 


1<i<100 1<j<100 





1<i'<100 1<j<100 


我 们 有 

! 

[Cn Co]| | +to]=[c C2l|,|+[e] 

/ a 
也 就 是 说 ， 前 四 个 条 件 是 说 〈i，j) 和 〈i，j) 处 于 这 个 循环 嵌 套 结构 
的 碗 代 空 间 中 ， 后 两 个 条 件 是 说 动态 访问 X [i，jJ 和 X [Li，j-1] 触及 
同一 个 数据 元 素 。 我 们 可 用 类 似 的 方法 得 到 针对 语句 s, 中 的 访问 Y [i- 
1,， jj」 和 语句 si 中 的 访问 Y [i,， jj 的 空间 分 划 约 束 。 








11.7.4 ”求解 空间 分 划 约 束 


一 旦 抽取 得 到 空间 分 划 约 束 之 后 ， 我 们 就 可 以 使 用 标准 线性 代数 技 
oR 让 我 们 首先 说 明 如 何 找 出 例 11.41 
和 解 。 


我 们 可 以 使 用 下 面 的 步 又 来 找 出 例 11.41 的 仿 射 分 划 : 


1) 建立 例 11.41 中 显示 的 空间 分 划 约 束 。 我 们 在 决定 数据 依赖 关系 
的 时 候 使 用 了 循环 界限 ， 但 是 在 算法 的 其 余部 分 不 再 使 用 循环 界限 。 


2 不 中 的 未 用 要 量 是 1 Yj 了 Coys Cin Bis Cops Coy 
和 c,。 根 据 访问 函数 可 得 到 等 式 i=Y 和 j=j-1。 使 用 这 些 等 式 来 减少 未 知 
量 的 数目 。 我 们 使 用 高 斯 消除 法 来 完成 这 个 工作 ， 它 把 四 个 变量 减少 为 











两 个 变量 ， 也 就 是 说 0 =i=i 和 b=j=j-1。 分 划 的 等 式 变 为 
| 
[CT -Ca Co -coa]| ,| +[a -ae -ca]=0 
2 


3) 上 面 的 等 式 对 于 所 有 的 ti 和 tb 组 合 都 成 立 。 因 此 必然 有 下 面 的 结 


论 : 
C11-C21=0 
C12-C22=0 
C1-Co-Coo=0 


如 果 我 们 对 访问 Y Li1j] 和 Y [Dj] 之 间 的 约束 执行 同样 的 处 理 步 
又 ， 我 们 得 到 


C0 
GC 
ci-co+C21=0 
把 所 有 这 些 约束 一 起 进行 简化 ， 我 们 得 到 下 面 的 关系 : 
re Te em eben 


49 找 出 那些 只 涉及 系数 矩阵 中 的 未 知 量 的 等 式 的 所 有 独立 解 。 在 
步 中 忽略 常量 向 量 中 的 未 知 量 。 在 系数 算 阵 中 只 有 一 个 独立 的 选 
择 ， 因此 我 们 寻找 的 仿 射 分 划 的 秩 最 多 为 一 。 为 了 使 得 分 划 尽 量 简单 ， 
我 们 把 Ci 设置 为 1。 我 们 不 和 把 0 赋值 给 Ci 因为 这 会 建立 一 个 零 秩 的 
系数 矩阵 。 零 秩 矩 阵 会 把 所 有 的 迭代 都 映射 到 同一 个 处 理 器 上 。 由 
Ge 











5) 找 出 常数 项 。 我 们 知道 第 数 项 之 间 的 差 c2-c1 必 须 是 -1。 但 是 我 
们 必须 选择 实际 的 值 。 为 了 使 分 划 简 单 ， 我 们 选择 c=0， 因 此 ci=-1。 


令 p 为 执行 迭代 (i,j) 的 处 理 器 的 ID 。 这 个 仿 射 分 划 用 p 表 示 就 是 


而 [站 -1[]*t-1 


L 
s:[p]=[1 -1]|,|+[o] 
J 
也 就 是 说 ，s1 的 第 (i,j) 个 迭代 被 分 配给 处 理 器 p=i-j-1; 而 s> 的 第 
(i,j) 个 达 代 被 分 配给 处 理 器 p=i-j。 
ER 本 找 出 一 个 程序 的 具有 最 高 秩 的 无 同步 仿 射 分 划 。 
输入 : 一 个 带 有 仿 射 数组 访问 的 程序 。 
输出 : 一 个 分 划 。 
方法 : 执行 下 列 步 又 


1) 找 出 程序 中 所 有 的 具有 数据 依赖 关系 的 访问 对 。 对 于 每 一 对 基 
有 数据 依赖 关系 的 访问 ， 花 套 在 循环 di 中 的 语句 Si 的 访问 
页 = <Fi,fi,B1,b! > 和 髓 套 在 循环 d, 中 的 语句 ss 的 访问 号 = <F,,f,B,,b, > 
。 令 <Ci,c1> 和 <C2,c2> 分 别 是 语句 s1 和 ss 的 (当前 未 知 的 ) 分 划 。 相 应 的 
空间 分 划 约 束 表明 对 于 分 别处 于 各 目 循 环 界限 中 的 fi 和 ip， 如 果 























那么 
Cl1lii+Cc1=Co2iz+C2 


我 们 将 扩展 迭代 的 域 ， 使 之 包含 Z4 中 的 所 有 1 和 yd 中 的 所 有 ii。 也 
束 是 说 ,假设 所 有 的 界限 都 是 从 负 无 穷 大 到 下 无 穷 大 。 这 样 的 假设 是 有 





道理 的 ， 因 为 一 个 仿 射 分 划 不 能 利用 如 下 的 性 质 : 一 个 下 标 变量 的 取 值 
范围 是 一 个 有 限 整 数 集合 。 


和 
和 数目 。 


(a) 请 注意 Fi+f 和 问 量 











[1 





相同 。 也 就 是 说 ， 通 过 在 列 向 量 i 的 底部 加 上 一 个 额外 的 分 量 1， 我 
们 可 以 使 列 向 量 f 成 为 附加 到 年 阵 F 中 的 最 后 一 列 。 这 样 ， 可 以 把 访问 函 
数 的 等 式 Fii+ 和 =Fziz+ 折 改写 为 


i ] 
Bi “|= 
] 
(b) 一 般 来 说 ， 上 面 的 等 式 具 有 多 个 解 。 但 是 ， 我 们 仍然 可 以 使 
用 高 斯 消除 法 尽 可 能 地 求解 这 个 关于 分 量 ij 和 i 的 方程 组 。 也 就 是 说 ， 
尽量 多 地 消除 变量 ， 直 到 只 璋 下 无 法 消除 的 变量 为 止 。 最 后 得 到 的 i 和 
i, 的 解 将 具有 如 下 形式 
71 
U i 
a =v | 
] 
] 


其 中 U 古 一 个 上 三 角形 矩阵 ，t 是 一 个 由 取 值 范围 为 所 有 整数 的 自由 
变量 组 成 的 向 量 。 








(c) 我 们 可 以 使 用 步骤 2 (a) 中 的 技巧 来 改写 关于 分 划 的 等 式 。 
用 步骤 2 (b) 的 结果 蔡 代 向 量 (iuiz1) ， 我 们 可 以 把 关于 分 划 的 约 东 
写成 


i 
[Ci-C, (ci -ez)]U| | = 


3) 舍弃 和 分 划 无 关 的 变量 。 上 面 的 等 式 对 所 有 的 t 都 成 立 的 条 件 是 
[Ci-C» (ci-c) ] U=0 
把 这 些 等 式 改写 成 Ax=0 的 形式 ， 其 中 x 是 一 个 由 仿 射 分 划 的 所 有 未 
知 系数 组 成 的 癌 量 。 
4) 找 出 这 个 仿 射 分 划 的 秩 并 求解 系数 算 阵 。 因 为 一 个 仿 射 分 划 的 
秩 和 分 划 中 常量 项 的 值 无 天 ， 所 以 消除 所 有 来 自 于 ci 和 c, 等 常量 向 量 的 


未 知 量 ， 从 而 把 Ax=0 答 换 为 经 过 简化 的 约束 Ax=0。 找 出 Ax'=0 的 解 ， 
并 把 它们 表示 为 B， 也 束 古 可 以 生成 A 的 零 空间 的 一 组 基本 同 量 的 集 











5) 找 出 常量 项 。 从 B 中 的 每 个 基本 向 量 中 得 到 所 求 仿 射 分 划 的 一 
行 ， 并 使 用 Ax=0 来 获得 常量 项 。 


请 注意 ， 步 又 3 忽略 了 因 循 环 界限 而 加 在 变量 t 上 的 约束 。 由 此 而 得 
到 的 仿 射 分 划 约 束 会 更 加 严格 ， 因 此 这 个 算法 一 定 是 安全 的 。 也 就 是 
说 ， 我 们 在 假设 t 可 取 任 意 值 的 情况 下 生成 了 对 C 和 c 的 约束 。 可 以 想 
象 ， 如 果 考 虑 到 对 变量 t 的 约束 会 使 得 t 不 可 能 取 茶 些 值 ， 那 么 可 能 还 会 
存在 一 些 C 和 c 的 其 他 解 。 没 有 搜寻 这 样 的 解 会 使 我 们 失去 一 些 优化 的 机 
会 ， 但 不 会 使 得 被 处 理 的 程序 所 完成 工作 和 原 程 序 不 同 。 











11.7.5 “一 个 简单 的 代码 生成 算法 


算法 11.43 生 成 了 能 够 把 计算 任务 分 割 成 独立 分 划 单 元 的 仿 射 分 
划 。 因 为 分 划 单 元 之 间 是 相互 独立 的 ， 因 此 它们 可 以 被 任意 分 配 到 不 同 








处 理 器 上 。 一 个 处 理 器 可 以 被 分 配给 多 个 分 划 单 元 ， 并 且 处 理 需 可 以 区 
符 执 行 分 配给 它 的 分 划 单 元 。 但 是 每 个 分 划 单 元 中 的 运算 需要 顺序 执 
行 ， 这 是 因为 它们 之 间 通 党 具有 数据 依赖 关系 。 


为 一 个 给 定 的 仿 射 分 划 生 成 一 个 正确 的 程序 相对 容易 一 些 。 我 们 首 
先 介 绍 算法 11.45。 这 是 一 个 简单 的 代码 生成 方法 ， 它 能 够 为 单 处 理 器 
系统 生成 顺序 地 执行 各 个 独立 分 划 单 元 的 代码 。 这 样 的 代码 优化 了 时 间 
局 部 性 ， 因 为 对 相同 数组 元 际 的 多 次 数组 访问 在 时 间 上 相当 靠近 。 不 仅 
如 此 ， 这 个 代码 很 容易 航 转 换 成 为 一 个 SPMD 程 序 ， 这 个 程序 在 不 同 的 
处 理 占 上 执行 各 个 分 划 单 元 。 遗 憾 的 是 ， 这 样 生 成 的 代码 是 低 效 的 ， 我 
们 下 一 步 将 讨论 使 这 些 代码 高 效 执行 的 优化 方法 。 


我 们 的 基本 思想 如 下 。 我 们 已 经 知道 了 一 个 循环 藤 套 结构 的 各 个 下 
标 变 量 的 界限 ， 也 在 算法 11.43 中 确定 了 某 个 语句 s 中 的 访问 的 分 划 。 假 
设 我 们 和 希望 生成 一 个 能 够 顺序 执行 各 个 处 理 器 上 的 动作 的 代码 ， 那 么 可 
以 创建 一 个 最 外 层 的 循环 ， 该 循环 退 历 各 个 处 理 器 ID。 也 就 是 说 ， 这 个 
循环 的 每 个 迭代 执行 了 分 配给 某 个 处 理 器 ID 的 运算 。 原 来 的 程序 作为 这 
个 循环 的 循环 体 被 插入 到 代码 中 。 另 外 ， 对 代码 中 的 每 个 运算 都 增加 了 
一 个 测试 条 件 作 为 卫 式 ， 以 保证 每 个 处 理 嚣 只 执行 赋予 它 的 运算 。 通 过 
这 个 方法 ， 我 们 保证 一 个 处 理 咒 按照 原来 的 顺序 执行 了 所 有 赋予 它 内 指 
令 。 








| 我 们 希望 生成 能 够 顺序 执行 例 11.41 中 的 各 个 独立 分 划 单 元 的 
马 。 原 来 的 顺序 程序 来 自 图 11-26， 我 们 在 图 11-28 中 重复 这 上 段 代 码 。 





for (i = 1; i <= 100; i++) 
for (j = 1; j <= 100; j++) { 


RL = XL Fs A tly yy 
Y[i,j] = Y[i,j] + X[i,j-1]; /* (s2) */ 





图 11-28 重复 图 11-26 
在 例 11.42 中 ， 仿 射 分 划算 法 找到 了 度数 为 一 的 并 行 性 。 因 此 ， 处 
理 器 空间 可 以 用 单个 变量 p 表 示 。 请 回忆 一 下 ， 我 们 在 那个 例子 中 选择 
了 如 下 的 仿 射 分 划 ， 对 于 所 有 满足 1<i<100 和 1<j<100 的 下 标 变量 i 和 j: 


1) 将 语句 sj 的 实例 (i，j) 分 配给 处 理 器 p=i-j-1。 





2) 将 语句 s, 的 实例 (i，j) 分 配给 处 理 器 p=i-j。 
我 们 可 以 分 三 步 生 成 代码 : 


1) 对 于 每 个 语句 ， 找 出 所 有 参与 该 语句 计算 的 处 理 器 的 ID 。 我 们 
把 约束 1<i<100 及 1<j<100 和 等 式 p=i-j-1 和 p=i-j 中 的 一 个 组 合 起 来 ， 并 通 
过 投影 消除 i 和 j， 得 到 新 的 约束 。 


QD 如 果 我 们 使 用 为 语句 s1 得 到 的 函数 p=i-j-1， 那 么 得 
到 -100<p<98。 


@@ 如 果 我 们 使 用 语句 s, 的 函数 p=i-j， 那 么 得 到 -99<p<99。 


2) 找 出 所 有 参与 了 任 一 语句 的 计算 工作 的 处 理 器 的 ID。 我 们 取 这 
些 范围 的 并 集 ， 得 到 -100<p<99， 这 些 界限 足以 覆盖 语句 sj 和 s> 的 所 有 的 
实例 。 


3) 生成 能 够 顺序 遍历 每 个 分 划 单 元 中 的 计算 工作 的 代码 。 图 11-29 
中 显示 的 代码 有 一 个 外 层 循环 ， 它 迭代 遍历 了 所 有 参与 计算 的 分 划 单 元 
的 ID 〈 第 1 行 ) 。 在 第 2 行 和 第 3 行 ， 每 个 分 划 单元 都 会 经 历 原 品行 程序 
生成 所 有 迁 代 下 标的 过 程 ， 然 后 它 可 以 选 出 应 该 由 处 理 器 p 执 行 的 先 
代 。 第 4 行 和 第 6 行 的 代码 保证 了 只 有 当 处 理 器 b 应 该 执行 语句 s1 和 sy 时 ， 
这 两 个 语句 才 可 以 执行 。 











for (p = -100; p <= 99; p++) 
for (i = 1; i <= 100; i++) 
for (j = 1; j <= 100; j++) { 
if (p == i-j-1) 


X[i,j] = X[i,j] + Y[i-1,j]; /* (s1) */ 
if (p == i-j) 
Y[i,j] 二 X[i,j-1] 本 VE] /* (s2) */ 





图 11-29 ”图 11-28 中 的 代码 的 简单 改写 ， 它 在 执行 时 遍历 处 理 器 空间 


里 然 生成 的 代码 是 正确 的 ， 但 是 特别 低 效 。 首 先 ， 虽 然 每 个 处 理 右 
最 多 执行 99 个 欠 代 的 计算 任务 ， 但 是 它 生 成 了 100x100 个 欠 代 的 循环 下 
标 值 ， 比 必须 的 下 标 值 数目 多 了 一 个 量 级 。 其 次 ， 最 内 层 循环 的 每 一 个 
加 法 都 带 有 一 个 条 件 测试 ， 在 原 有 开销 上 又 增加 了 一 个 党 量 因 了 于。 这 两 


种 低 效 率 问 题 的 处 理 将 分 别 在 11.7.6 节 和 11.7.7 节 中 处 理 。 


虽然 图 11-29 的 代码 看 起 来 被 设计 成 在 单 处 理 器 上 执行 的 代码 ， 但 
我 们 将 把 第 2 行 到 第 8 行 的 内 层 循环 拿 出 来 在 200 个 不 同 的 处 理 器 上 执行 
它们 。 每 个 处 理 需 都 有 一 个 不 同 的 从 -100 一 99 的 p 值 。 只 要 我 们 安排 得 
当 ， 使 得 每 个 处 理 咒 都 知道 各 目 负责 p 的 哪些 值 ， 并 且 只 执行 对 应 于 这 
机 人 那么 就 可 以 在 少 于 200 个 处 理 器 上 分 划 内 层 
循环 的 计算 。 


创建 顺序 执行 一 个 程序 的 各 个 分 划 单 元 的 代码 。 


输入 : 一 个 具有 仿 射 数组 访问 的 程序 P。 程 序 中 的 每 个 语句 s 具 有 形 
如 Bsi+bs>0 的 界限 ， 其 中 选 s 所 在 循环 嵌 套 结构 的 循环 下 标 变量 的 癌 
量 。 每 个 语句 s 还 附 有 一 个 分 划 Csi+cs=p， 其 中 p 是 一 个 由 表示 处 理 器 ID 
的 变量 组 成 的 m 维 向 量 。m 是 程序 P 中 的 各 个 语句 的 分 划 的 秩 的 最 大 值 。 


输出 : 一 个 等 价 于 P 的 程序 ， 但 是 它 在 处 理 右 空间 上 〔 而 不 是 原来 
的 循环 下 标 上 ) 进行 迭代 遍历 。 


方法 : 执行 下 列 各 步 又 : 


1) 对 于 每 个 语句 ， 使 用 Fourier-Motzkin 消 除法 从 界限 中 通过 投影 消 
除 所 有 的 循环 下 标 变量 。 


2) 使 用 算法 11.13 来 决定 分 划 单 元 ID 的 界限 。 


3) 为 处 理 器 空间 的 m 个 维度 中 的 每 一 维 生 成 一 个 循环。 令 
p= Lp1p2,…，Pmj」 为 这 些 循 环 的 变量 的 向 量 。 也 就 是 说 ， 对 于 处 理 器 
空间 的 每 一 个 维度 都 有 一 个 变量 。 每 个 循环 变量 pi 所 历程 序 P 中 所 有 语 
句 的 分 划 空 间 的 并 集 。 

请 注意 ， 分 划 空 间 的 并 集 不 一 定 是 凸 的。 为 了 保证 算法 简单 ， 我 们 
不 必 做 到 只 枚 举 那 些 确实 有 计算 任务 的 分 划 单元 ;我 们 可 以 把 每 个 pi 的 
下 界 设 置 为 由 各 个 语句 确定 的 全 部 下 界 的 最 小 值 ， 并 把 每 个 pi 的 上 界 设 
置 为 由 各 个 语句 确定 的 全 部 上 界 的 最 六 值 。 因 此 p 的 共 些 取信 可 能 没有 


运算 


























由 每 个 分 划 单 元 执行 的 代码 融 是 原来 的 哩 行程 序 。 但 每 个 语句 都 带 
有 一 个 断言 作为 卫 陈 条 件 ， 以 保证 只 有 属于 这 个 分 划 单 元 的 代码 才 会 被 








我 们 很 快 就 会 给 出 算法 11.45 的 一 个 例子 。 但 是 请 记 住 ， 要 得 到 典 
型 例子 的 优化 代码 还 有 很 多 工作 要 做 。 








11.7.6 ”消除 空 欠 代 


现在 我 们 讨论 生成 高 效 SPMD 代 码 所 必须 的 两 个 转换 中 的 第 一 个 。 
每 个 处 理 需 执行 的 代码 循环 过 历 原 程 序 中 的 所 有 迭代 ， 并 选择 应 该 由 它 
执行 的 运算 。 如 果 代 码 具 有 k 度 的 并 行 性 ， 这 么 做 的 后 末 束 是 每 个 处 理 
需 的 工作 量 增 大 了 k 个 数量 级 。 第 一 个 转换 的 目的 是 收 双 循环 的 界限 以 
便 消 除 所 有 的 空 欠 代 。 


首先 我 们 逐条 考虑 程序 中 的 语句 。 由 一 个 分 划 单 元 执行 的 一 个 语句 
的 碗 代 空 间 是 原来 的 大 代 空间 加 上 仿 冉 分 划 给 出 的 约束 。 我 们 可 以 把 算 
法 11.13 应 用 到 新 的 迭代 空间 ， 为 每 个 语句 生成 一 个 紧 致 的 界限 。 新 的 
下 标 向 量 和 原 顺 序 程序 的 下 标 疝 量 类 似 ， 但 加 上 了 人 处理 右 ID 作 为 最 外 层 
PA 
限 。 


在 找到 不 同 语句 的 迭代 空间 之 后 ， 我 们 按照 逐个 循环 的 方式 把 它们 
组 合 起 来 ， 使 得 下 标的 界限 为 各 个 语句 的 界限 的 并 集 。 如 下 面 的 例 
11.46 所 示 ， 最 后 有 些 循环 可 能 只 有 一 个 迭代 ， 我 们 可 以 简单 地 消除 这 
个 循环 ， 并 直接 把 循环 下 标 设置 为 该 过 代 对 应 的 值 。 


对 于 图 11-30a 中 的 循环 ， 算 法 11.43 将 生成 仿 射 分 划 











S1:p=i 
S2:D=] 


算法 11.45 将 生成 图 11-30b 中 的 代码 。 对 语句 sj 应 用 算法 11.13 得 到 界限 
p<i<sp， 即 i=p。 类 似 地 ， 这 个 算法 确定 对 于 语句 s5 有 j=p。 这 样 我 们 就 得 


到 了 图 11-30c 所 示 的 代码 。 对 变量 i 和 j 的 传播 将 会 消除 不 必要 的 测试 而 
得 到 图 11-30d 中 的 代码 。 


for (p=1; p<=N; p++) { 
for (i=1; i<=N; i++) 
if (p == i) 
Y[i] = Z[i]; /* (si1) */ 





for (i=1; i<=N; i++) 


for (j=1; j<=N; j 
Y[i] = Z[i]; /* (s1) */ te jt 


if (p == j) 
X[j] = Y[j]; /* (s2) */ 


for (j=1; j<=N; j++) 
X[j] = Y[j]; /* (s2) */ 





a) 初始 代码 b) 应 用 算法 11.45 后 得 到 的 代码 


for (p=1; p<=N; p++) { 
i=p; 
if (p == i) 
Y[i] = Z[i]; /* (s1) */ 
j = p; for (p=1; p<=N; p++) { 
if (p == j) Y[p] = Z[p]; /* (s1) */ 
X[j] = Y[j]; /* (s2) */ X[p] = Y[p]; /* (s2) */ 
} 














o) 应 用 算法 11.13 后 得 到 的 代码 中 最 终 的 代码 
图 11-30 ” 例 11. 46 的 代码 


现在 我 们 回 到 例 11.44， 并 说 明 把 不 同 语句 的 多 个 达 代 空间 合并 到 
一 起 的 步骤 。 


| 现在 让 我 们 收 紧 例 11.44 中 代码 的 循环 界限 。 由 分 划 蛙 元 p 执 
行 的 磅 名 $1 的 达 代 空间 由 下 面 的 等 式 和 不 等 式 定 义 : 


-100<p<99 
1<i<100 
1<j<100 
i-p-1=j 
对 上 面 的 算式 应 用 算法 11.13 生 成 了 图 11-31a 中 显示 的 约束 。 算 法 
11.13 根 据 i-p-1=j 和 1<j<100 生 成 约束 p+2<i<100+p+1， 并 把 p 的 上 界 收 紧 
为 98。 类 似 地 ， 对 于 语句 s, 的 各 个 变量 的 界限 在 图 11-31b 中 显示 。 


图 11-31 中 语句 s1 和 s, 的 迭代 空间 是 相似 的 ， 但 是 如 图 11-27 中 所 期 望 
的 ， 两 个 空间 在 某 些 界限 上 相差 1。 图 11-32 中 的 代码 在 这 两 个 迭代 空间 
的 并 集 上 运行 。 比 如 ， 使 用 max (1,p+1) 作为 i 的 下 界 ， 











min (100,100+p+1) 作为 其 上 界 。 请 注意 ， 最 内 层 循环 在 第 一 次 和 最 后 
一 次 执行 时 只 有 一 个 迭代 ， 而 在 其 他 情况 下 有 两 个 迭代 。 生 成 循环 下 标 
的 开销 因此 降低 了 一 个 数量 级 。 因 为 被 执行 的 欠 代 空间 比 s; 和 s> 的 友 代 
空间 都 大 ， 在 执行 这 些 语句 的 时 候 仍然 需要 使 用 条 件 判 断 来 进行 选择 。 




















j: i—-p-1 < ;7 & i-p-l1 j: i-p < 7 < i-p 
1 世 世 100 1< 7; < 100 

p+2 < i < 100+p+1 i D1 过 区 二 100p 
1 < i «< 100 1 < i < 100 

p: -100 < p < 98 p: 99 «< p < 99 
a) 语句 si 的 界限 b) 语句 s, 的 界限 


图 11-31 图 11-29 中 p、i 和 j 的 较 紧 致 的 界限 
11.7.7 从 最 内 层 循环 中 消除 条 件 测试 


第 二 个 转换 是 从 内 层 循环 中 消除 条 件 测 试 。 如 上 面 的 例子 所 示 ， 如 
果 循 环 中 各 个 语句 的 迭代 空间 相交 但 是 不 重合 ， 就 需要 保留 条 件 测 试 语 
句 。 为 了 消除 对 条 件 测 试 的 需求 ， 我 们 把 欠 代 空间 分 割 成 为 子 空间 ， 每 
个 子 空间 执行 同样 的 语句 集合 。 这 个 优化 过 程 要 求 复制 代码 ， 且 只 应 该 
用 于 消除 内 层 循环 的 条 件 测试 。 


为 了 分 割 一 个 迭代 空间 以 消除 内 层 循 环 的 条 件 调试 ， 我 们 重复 应 用 
下 列 步 又 下 到 消除 内 层 循 环 中 的 所 有 条 件 测试 : 
1) 选择 一 个 由 界限 不 同 的 多 个 语句 组 成 的 循环 。 


2) 使 用 一 个 条 件 来 分 割 循 环 ， 使 得 茶 个 语句 从 至 少 一 个 分 循环 中 
被 剔除 。 我 们 从 相互 重 登 的 不 同 多 面体 的 边界 中 选择 这 个 条 件 。 如 果 某 
人 
LAE Jo 


3) 为 每 一 个 迭代 空间 生成 代码 。 


0 S00 .0600 (0 
分 划 里 元 ， 语 全 











s1 和 s, 被 映射 到 同一 个 分 划 单元 ID。 因 此 ， 我 们 把 分 划 空 间 分 成 三 
个 子 空间 : 


for (p = -100; p <= 99; p++) 
for (i = max(1,p+1); i <= min(100,101+p); i++) 
for (j = max(1,i-p-1); j <= min(100,i-p); j++) { 
if (p == i-j-1) 
X[i,j] = X[i,j] + Y[i-1,j]; /* (s1) */ 


if (p == i-j) 
Y[i,j] = X[i,j-1] + Y[i,j]; /* (s2) */ 





图 11-32 ”通过 收 紧 循环 界限 进行 改进 之 后 的 图 11-29 的 代码 
1) p=-100 
2) -99<p<98 


3) p=99 





然后 ， 就 可 以 针对 每 个 子 空间 中 所 包含 的 p 的 值 对 它 的 代码 进行 特 
化 。 图 11-33 中 显示 了 这 三 个 迭代 空间 的 代码 。 

请 注意 ， 第 一 个 和 第 三 个 空间 不 需要 i 或 j 的 循环 ， 因 为 定义 这 两 个 
空间 的 p 值 是 确定 的 ， 这 些 循环 都 是 退化 的 ， 它 们 只 有 一 个 迭代 。 比 
如 ， 在 空间 1 中 ， 在 循环 界限 中 把 p 蔡 换 为 -100 会 把 i 限制 为 1， 从 而 把 j 限 
定 为 100。 在 空间 1 和 3 中 对 p 的 赋值 显然 是 死 代码 ， 因 此 可 以 被 消除 。 


下 面 我 们 在 空间 2 中 分 割 下 标 为 的 循环 。 循 环 下 标的 第 一 次 和 最 后 
一 次 达 代 是 不 同 的 。 因 此 ， 我 们 把 这 个 循环 分 割 为 三 个 子 空间 : 


1) max (1,p+1)〉<i<p+2， 其 中 只 有 s, 被 执行 。 
2) max (1p+2) <i<min (100,100+p〉， 其 中 s1 和 s, 都 被 执行 。 
3) 101+p<i<min (101+p,100) ， 其 中 只 有 si 被 执行 。 


图 11-33 中 第 二 个 空间 的 循环 租 套 因此 可 以 被 写成 图 11-34a 所 示 的 代 
码 。 


/* 空间 (1) */ 


X[i,j] = X[i,j] + Y[i-1,j]; /* (si1) */ 


/* 空间 (2) */ 
for (p = -99; p <= 98; p++) 
for (i = max(1,p+l); i <= min(100,101+p); i++) 
for (j = max(1,i-p-1); j <= min(100,i-p); j++) { 
if (p == i-j-1) 
X[i,j] = X[i,j] + Y[i-1,j]; /* (s1) */ 
还 fh == ¥ 
Y[i,j] = X[i,j-1] + Y[i,j]; /* (s2) */ 
3 


* 空间 (3) */ 

99 ; 

100 ; 

1; 

[i,j] = X[i,j-1] + Y[i,j]; /* (s2) */ 


/ 
P 
i 
] 
Y 





图 11-33 ”根据 p 的 值 分 割 和 迭代 空间 


图 11-34b 显 示 了 经 过 优化 的 程序 。 我 们 已 经 用 图 11-34a 蔡 换 了 图 11- 
33 中 相应 的 循环 友 代 结构 。 我 们 也 已 经 把 对 p、i 和 j 的 赋值 传播 到 数组 访 
问 中 。 当 在 中 间 代 码 层 次 上 进行 优化 时 ， 其 中 的 一 些 赋值 会 被 识别 为 公 
共 子 表达 式 ， 并 从 数组 访问 代码 中 重新 抽取 出 来 。 








/* 空间 (2) */ 
for (p = -99; p <= 98; p++) { 
/* 空间 (2a) */ 
if (p >= 0) { 
i = p+il; 
j=1; 
Y[i,j] = X[i,j-1] + Y[i,j]; /* (s2) */ 


} 
/* 空间 (2b) */ 
for (i = max(1,p+2); i <= min(100,100+p); i++) { 
j = i-p-1; 
X[i,j] = X[i,j] + Y[i-1,j]; /* (s1) */ 
j = i-p; 
Y[i,j] = X[i,j-1] + Y[i,j]; /* (s2) */ 
} 
/* 空间 (2c) */ 
if (p <= -1) { 
i = 101+P; 
j = 100; 
X[i,j] = X[i,j] + Y[i-1,j]; /* (sl1) */ 





a) 根据 ;的 值 分 割 空间 (2) 
图 11-34 例 11. 48 的 代码 


/* 空间 (1); p = -100 */ 
X[1,100] = X[1,100] + Y[0,100]; 


/* 空间 (2) */ 
for (p = -99; p <= 98; p++) { 
if (p >= 0) 
Y[p+1,1] = X[p+1,0] + Y[p+1,1]; 
for (i = max(1,p+2); i <= min(100,100+p); i++) { 


X[i,i-p-1] = X[i,i-p-1] + Y[i-1,i-p-1]; /* 
Y[i,i-p] = X[i,i-p-1] + Y[i,i-p]; /* 


} 
if (p <= -1) 
X[101+p,100] = X[101+p,100] + Y[101+p-1,100] ; /* 
} 
/* 空间 (3); p = 99 */ 
Y[100,1] = X[100,0] + Y[100,1]; /* 





b) 和 图 11-28 等 价 的 优化 代码 


图 11-34 〔 续 ) 


11.7.8 ” 源 代码 转换 


我 们 已 经 看 到 如 何 根据 各 个 语句 的 简单 仿 射 分 划 得 到 和 原来 的 源 代 
码 明 显 不 同 的 程序 。 但 是 ， 至 今 为 止 看 到 的 例子 中 都 没有 明确 显示 出 仿 
射 分 划 是 如 何 与 源 代 码 层 次 上 的 改变 联系 起 来 的 。 本 节 将 说 明 ， 通 过 把 
0 ee 列 基本 变换 ， 我 们 可 以 相对 容易 地 论证 对 源 代码 
J 修改 。 


七 个 基本 仿 射 转换 


每 个 仿 射 分 划 可 以 表示 为 一 个 由 的 基本 仿 射 转换 组 成 的 序列 。 每 个 
基本 仿 射 转换 对 应 于 源 代 人 码 层 次 上 的 一 个 简单 改变 。 总 共有 七 个 基本 仿 
射 转 换 :， 前 四 个 基本 转换 在 图 11-35 中 说 明 ， 后 三 个 转换 被 称 为 么 模 转 
换 (unimodular transformn ) ， 在 图 11-36 中 解释 。 





for (i=1; i<=N; i++) 
Y[i] = Z[i]; /*si*/ 

for (j=1; j<=N; j++) 
X[j] = Y[j]; /*s2*/ 


中 


Sl 


52 


E 


for (p=1; p<=N; p++){ 
Y[p] = Z[pj; 
X[p] = Y[p]; 


for (i=1; i<=N; i++) { 
Y[i] = Z[i]; /*si*/ 
X[i] = Y[i-1]; /*s2*/ 


NN 


for (i=1; i<=N; i++) 
Y[2*i] = Z[2*i]; /*si*/ 
for (j=1; j<=2*N; j++) 
xX[j]=Y[j]; /*s2*/ 
Se Sl 
Be 
@9eeeee > 
-一 人 
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图 11-35 










转换 后 的 代码 


for (p=1; p<=N; p++){ 
Y[P] = Z[p]; 
X[Lp] = Y[p]; 

J 


ER 。 
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for (i=1; i<=N; i++) 
Y[i] = Z[i]; /*si*/ 

for (j=1; j<=N; j++) 

X[j] = Y[j]; /*s2*/ 





if (N>=1) X[1]=Y[0]; 

for (p=1; p<=N-1; p++){ 
Y[pj=Z [pj]; 
xX[p+1]=Y [p]; 

= 

if (N>=1) Y[N]=Z[N]J; 





for (P=1; p<=2*N; p++){ 
if (p mod 2 == 0) 








Y[p] = Z[pj; 
比例 变换 X[p] = Y[p]; 
S51:p=2*1i |} 
(s2 :p= 7)) 









基本 仿 射 转换 (| ) 








for (i=0; i<=N; i++) 
Y[N-i] = Z[i];  /*si*/ 
for (j=0; j<=N; j++) 
X[j] = Y[j]; /*s2*/ 


OD ONOLOmE 0 
pp 


for (i=1; i<=N; i++) 
for (j=0; j<=M; j++) 
2Z[i,j] = 
yA nr 


| 


OODO 





转换 后 的 代码 


for (p=0; p<=N; p++){ 
Y[p] = Z[N-p]; 
X[p] = YL[pj; 


for (p=0; p<=M; p++) 
for (gq=1; q<=N; q++) 
Z[q,p] = Z[q-1,P]; 





for (i=1; i<=N+M-1; i++) 
for (j=max(1,i+N); 
j<=min(i,M); j++) 


for (p=1; p<=N; p++) 
for (q=1; q<=M; q++) 


Z[i;ji Z[p,qd-p] = 
Z[i-1,j-1]; Z[p-1,q-p-1]; 
O—>O 
O—>O 
O—>O 














图 11-36 基本 仿 射 转换 (1|) 


图 中 给 出 了 每 个 基本 转换 的 一 个 例子 : 一 个 源 代 码 、 一 个 仿 射 分 划 
和 一 个 结果 代码 。 我 们 也 画 出 了 转换 之 前 和 之 后 的 代码 中 的 数据 依赖 关 
系 。 在 数据 依赖 天 系 图 中 ， 我 们 看 到 每 个 基本 转换 对 应 于 一 个 简单 的 几 
何 转换 ， 对 应 于 一 个 简单 的 代码 转换 。 这 了 七 个 基本 转换 为 : 


1) 融合 〈fusion) 。 融 合 转换 的 特点 是 把 原 程序 中 的 多 个 循环 下 标 
映射 到 同一 个 循环 下 标 上 。 新 的 循环 融合 了 来 目 不 同 循环 的 语句 。 


2) 裂变 (fission) 。 裂 变 转 换 是 融合 的 逆 问 转换 。 它 把 不 同 语句 的 
同一 个 循环 下 标 映 射 到 转换 得 到 的 代码 中 的 不 同 循环 下 标 。 这 个 转换 把 





原来 的 一 个 循环 分 解 为 多 个 循环 。 


3) 重新 索引 (re-indexing) 。 重 新 索引 技术 把 一 个 语句 的 动态 执行 
偏 移 固 定 多 个 达 代 。 这 个 仿 冉 变换 有 一 个 常量 项 。 


4) 比例 变换 “scaling) 。 源 程序 中 的 连续 欠 代 被 一 个 音量 因子 陋 
开 。 这 个 仿 射 变换 具有 一 个 正 的 非 单元 系数 。 


5) 反 置 (reversal)。 按 照相 反 顺 序 执行 循环 中 的 迭代 。 反 置 转换 
的 特点 是 有 一 个 系数 为 -1。 


6) 交换 (permutation〉 。 交 换 内 层 循环 和 外 层 循环 。 这 个 仿 射 变 
换 由 单位 矩阵 中 的 经 过 交换 的 各 行 组 成 。 


7) 倾 笠 《skewing) 。 沿 着 一 个 角度 来 届 有 历 循环 的 友 代 空间 。 这 个 
仿 射 变换 是 一 个 么 模 和 矩阵， 其 对 角 线 上 都 是 1。 


么 模 转 换 
一 个 乏 模 转换 仅 由 一 个 乏 模 系数 矩阵 组 成 ， 没 有 常量 同 量 。 么 模 


矩阵 是 一 个 正方 形 矩 阵 ， 其 行列 式 为 +1。 乏 模 转 换 的 重要 性 在 于 它 把 
一 个 n 维 达 代 空间 映射 到 男 一 个 n 维 的 多 面体 ， 并 且 两 个 空间 之 间 的 连 
代 具 有 一 一 对 应 关系 。 





并 行 化 的 几何 解释 


在 上 面 的 例子 中 ， 除 裂变 之 外 ， 其 他 的 仿 射 转换 都 是 通过 把 无 同步 
仿 射 分 划算 法 应 用 到 各 自 的 源 代码 上 而 得 到 的 。 (下 一 节 中 将 讨论 如 何 
把 裂变 转换 应 用 于 带 有 同步 的 代码 的 并 行 化 。〉 在 每 一 个 例子 中 ， 生 成 
的 代码 有 一 个 (最 外 层 的 ) 可 并 行 化 循环 ， 这 个 循环 的 各 个 迭代 可 以 分 
配给 不 同 的 处 理 器 ， 并 且 不 需要 同步 。 


这 些 例 子 说 明 可 以 使 用 几何 学 的 方法 来 简单 地 解释 并 行 化 技术 是 如 
何 工 作 的 。 依 赖 边 总 是 从 一 个 较 早 的 实例 指 回 较 晚 的 实例 。 因 此 ， 概 套 
在 不 同 循环 中 的 不 同 语句 之 间 的 依赖 关系 遵循 程序 文本 中 的 顺序 ， 峰 套 





在 同一 循环 中 的 语句 之 间 的 依赖 关系 遵循 词典 顺序 。 从 几何 学 角度 讲 ， 
一 个 二 维 循环 符 套 结构 的 依赖 关系 总 是 在 [0?",180") 的 范围 之 内 ， 也 就 
古 说 这 些 依 赖 关系 的 角度 必然 低 于 180*， 但 是 不 小 于 0°。 


仿 冉 转 换 改变 了 磷 代 的 顺序 ， 使 得 只 有 最 外 层 循 环 的 同一 达 代 之 内 
的 运算 之 间 才 有 依赖 关系 。 换 句 话 说 ， 在 最 外 层 循环 的 达 代 边界 上 没有 
依赖 边 。 在 对 简单 的 源 代码 进行 并 行 化 时 ， 我 们 可 以 画 出 它们 的 依赖 关 
系 ， 并 用 几何 方法 找 出 这 样 的 转换 。 








11.7.9 11.7 节 的 练习 


练习 11.7.1: 对 于 下 面 的 循环 


for (i = 2; i < 100; i++) 
A[i] = ALi-2] ; 


YL 


1) 最 多 可 以 用 多 少 个 处 理 器 来 有 效 运 行 这 个 循环 ? 

以 处 理 占 编写 p 作 为 参数 改写 这 个 代码 。 

给 出 这 个 循环 的 空间 分 划 约 束 ， 并 找 出 这 个 约束 的 一 个 解 。 
这 个 循环 的 具有 最 高 秩 的 仿 射 分 划 是 什么 ? 


练习 11.7.2: 对 于 图 11-37 中 的 循环 藤 套 结构 重复 练习 11.7.1。 
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WW 
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for (i = 1; i <= 100; i++) 
for (j = 1; j <= 100; j++) 
for (k = 1; k <= 100; k++) { 
A[i,j,k] = A[i,j,x] + B[i-1,j,k]; 
B[i,j,k] = B[i,j,k] + C[i,j-1,k]; 
for (i = 0; i <= 97; i++) C[i,j,k] = C[i,j,k] + A[i,j,k-1]; 
A[i] = A[i+2]; } 














b) 


fOr (= 1 00 i144 
for (j = 1; j <= 100; j++) 
for (k = 1; k <= 100; k++) { 
A[i,j,k] = A[i,j,k] + 起 了 = 二] 
B[i,j,k] = B[i,j,k] + A[i,j-1,k]; 


CLi, jE] = [JE + ALi,j,K-1] + BLi,j,k]; 
} 





C) 


图 11-37 练习 11.7.2 的 代码 


练习 11.7.3: 改写 下 面 的 代码 


for (i = 0; i < 100; i++) 
A[i] = 2*A[il]; 

for (j = 0; j < 100; j++) 
A[j] = A[j] + 1; 





使 得 新 代码 只 包含 一 个 循环 。 以 处 理 占 编号 p 为 下 标 改写 这 个 循环 ， 使 
得 代码 可 以 在 100 个 处 理 器 之 间 分 配 ， 其 中 第 p 个 友 代 由 处 理 器 p 执 行 。 


练习 11.7.4: 在 下 面 的 代码 中 


for (i = 1; i < 100; i++) 
for (j = 1; j < 100; j++) 
/* (s) */ A[i,j] = (A[i-1,j] + A[i+1,j] + A[i,j-1] + A[i,j+1])/4; 


唯一 的 约束 是 作为 该 循环 藤 套 结构 的 循环 体 的 语句 s 必 须 首 先 执行 迭代 
s (i-1,j) 和 s (ij-1) ， 然 后 执行 迭代 s (i,j)。 证 明 这 些 约束 就 是 全 部 
的 必要 约束 。 然 后 改写 代码 使 得 最 外 层 循 环 的 下 标 变量 为 p， 并 且 所 有 
满足 itj=p 的 实例 。(i,j〉 都 在 外 层 循 环 的 第 p 个 迭代 上 执行 。 

练习 11.7.5: 重复 练习 11.7.4， 但 是 重新 安排 执行 方案 ， 使 得 s 的 满 
足 i-j=p 的 实例 在 外 层 循环 的 第 p 个 迭代 上 运行 。 


! 练习 11.7.6: 把 下 面 的 循环 





for (i = 0; i < 100; i++) 


ALi] = BLil]; 
for (j = 98; j >= 0; j = j-2) 
Bli] = i; 


合并 为 一 个 循环 ， 要 求 保持 所 有 的 依赖 关系 。 
练习 11.7.7: 证 明和 矩阵 


2 1] 
1 1 


是 么 模 的 。 描 述 一 下 它 对 一 个 二 维 循 环 散 套 结 构 所 做 的 转换 。 
练习 11.7.8: 对 下 面 的 矩阵 重复 练习 11.7.7。 


于 
, s 


11.8 ”并 行 循 环 之 间 的 同步 


如 果 我 们 不 允许 处 理 占 之 间 进 行 任何 同步 ， 很 多 程序 就 没有 任何 并 
行 性 。 但 是 通过 向 一 个 程序 中 增加 少量 固定 多 个 同步 运算 之 后 ， 可 以 找 
到 更 多 的 并 行 性 。 在 本 节 中 ， 我 们 将 首先 讨论 因为 引入 固定 多 个 同步 运 
0 

Ps 





11.8.1 固定 多 个 同步 运算 


没有 无 同步 并 行 性 的 程序 可 能 包含 一 系列 循环 。 如 果 独 立地 考虑 这 
些 循环 ， 其 中 的 茶 些 循环 是 可 以 并 行 化 的 。 我 们 可 以 在 这 些 循环 执行 之 
0 





图 11-38 给 出 了 一 个 实现 了 ADI (交替 方向 隐 式 方法 ， 一 种 数 
计算 方法 ，Alternating Dirrection Implicit) 积分 算法 的 典型 程序 。 它 
没有 无 同步 并 行 性 。 在 第 一 个 循环 峙 套 结构 中 的 依赖 关系 要 求 每 个 处 理 
器 在 数组 X 的 一 列 上 工作 ; 但 是 在 第 二 个 循环 蔡 套 结构 中 的 依赖 关系 要 
求 每 个 处 理 器 在 数组 X 的 一 行 上 工作 。 如 果 要 求 没 有 通信 运算 ， 整 个 数 
组 必须 放 在 同一 个 处 理 器 上 ， 因 此 不 存在 并 行 性 。 但 是 ， 我 们 观察 到 两 
个 循环 都 是 可 以 单独 并 行 化 的 。 


六 
for (j = 0; j < n; j++) 
和 = 和 六 


for (i = 0; i < n; i++) 
for (j= 1; j < n; j++) 





图 11-38 两 个 顺序 的 循环 瞪 套 结构 





并 行 化 代码 的 方法 之 一 是 在 第 一 个 循环 中 让 不 同 的 处 理 喜 在 数组 的 
不 同 列 上 工作 ， 同 步 并 等 待 所 有 的 处 理 器 完成 任务 后 ， 各 个 处 理 器 再 在 
各 个 行 上 进行 运算 。 使 用 这 个 方法 ， 只 需要 引入 一 个 同步 操作 就 可 以 使 
算法 中 的 所 有 计算 都 被 并 行 化 。 但 是 ， 我 们 注意 到 虽然 只 进行 了 一 次 同 
步 ， 但 是 这 个 并 行 化 方案 要 求 几乎 所 有 的 矩阵 XX 中 的 数据 在 不 同 的 处 理 
器 之 间 传 递 。 通 过 引入 更 多 的 同步 计算 有 可 能 降低 通信 量 。 我 们 将 在 
11.9.9 节 中 讨论 这 个 问题 。 

看 起 来 ， 这 个 方法 可 能 只 适用 于 由 一 系列 循环 藤 套 组 成 的 程序 。 但 
是 ， 我 们 可 以 通过 代码 转换 创造 出 更 多 的 优化 机 会 。 我 们 可 以 应 用 循环 
裂变 转换 把 原 程 序 中 的 循环 分 解 成 为 几 个 较 小 的 循环 。 利 用 同步 栅 障 把 
它们 隔 开 ， 然 后 逐一 将 它们 并 行 化 。 我 们 用 例 11.50 来 解释 这 个 技术 。 


考虑 下 面 的 循环 : 





for (i=1; i<=n; i++) { 
X[i] = Y[i] + Z[i]; /* (s1) */ 
W[A[i]] = X[i]; /* (s2) */ 
} 


因为 不 知道 数组 A 中 的 值 ， 我 们 必须 假设 语句 s, 中 的 访问 可 以 写 到 
W 的 任何 元 素 上 。 因 此 ，s, 的 实例 的 执行 顺序 必须 和 它们 在 原 程序 中 的 
顺序 一 致 。 


代码 中 没有 无 同步 的 并 行 性 ， 算 法 11.43 将 简单 地 把 所 有 的 计算 任 
务 都 赋予 同一 个 处 理 器 。 但 是 ， 至 少 语句 Si 的 实例 可 以 并 行 执行 。 我 们 
可 以 把 这 个 代码 的 一 部 分 并 行 化 ， 方 法 是 让 不 同 的 处 理 吉 执行 语句 Si 的 
不 同 实例 。 然 后 在 男 一 个 独立 的 顺序 循环 中 ， 用 一 个 处 理 器 (比如 说 0 
号 处 理 器 ) 执行 s,。 相 应 的 SPMD 代 码 显 示 在 图 11-39 中 。 











X[p] = Y[p] + 2Z[Lp] ; /* (s1) */ 
/* synchronization barrier */ 
if (p == 0) 


for (i=1; i<=n; i++) 


WLA[i]] = X[i]; /* (s2) */ 





图 11-39 ” 例 11. 50 中 的 循环 的 SPMD 代 码 ， 其 中 p 是 存放 处 理 器 1D 的 变量 


11.8.2 ”程序 依赖 图 





为 了 找 出 所 有 可 以 通过 加 入 固定 多 个 同步 运算 而 变 得 可 用 的 并 行 
性 ， 我 们 可 以 尽 可 能 地 对 原 程 厅 应 用 裂变 转换 。 把 循环 尽 可 能 分 解 为 独 
立 循环 ， 然 后 独立 地 并 行 化 每 个 循环 。 


为 了 揭示 出 所 有 可 以 进行 循环 裂变 的 机 会 ， 我 们 使 用 程序 依赖 图 
(Program Dependence Graph，PDG) 的 抽象 表示 方法 。 程 序 的 程序 依 
赖 图 中 的 各 个 结 点 是 程序 的 赋值 语句 ， 图 中 的 边 表示 语句 之 间 的 数据 依 
赖 关 系 以 及 依赖 的 方 回 。 只 要 语句 sj 的 某 个 动态 实例 和 后 面 的 语句 s, 的 
一 个 动态 实例 之 间 存 在 数据 依赖 关系 ， 就 存在 一 条 从 语句 s1 到 语句 s, 的 
1 


构造 一 个 程序 的 PDG 时 ， 我 们 首先 找 出 每 一 对 语句 中 的 两 个 静态 访 
问 之 间 的 数据 依赖 关系 。 一 个 语句 对 中 的 两 个 语句 可 以 相同 ， 这 两 个 毅 
态 访问 也 可 以 相同 。 假 设 确定 了 语句 si 中 的 访问 .和 和 语句 s 中 的 访问 
矿 之 间 有 依赖 关系 。 请 注意 ， 一 个 语句 的 实例 可 以 使 用 下 标 癌 量 
这 [ii in] 来 刻画 ， 其 中 读 是 该 语句 所 在 循环 授 套 结构 中 从 最 外 层 
开始 的 第 k 个 循环 的 下 标 。 


1) 如 果 有 两 个 语句 实例 ，sj 的 实例 i 和 s,s 的 实例 jb， 它们 之 间 有 具有 
数据 依赖 关系 ， 并 且 在 原 程序 中 ,ii 在 i 之 前 执行 ， 记 作 ii < ， 那 么 
有 一 条 从 sl 到 s, 的 边 。 


2) 类 似 地 ， 如 果 有 两 个 语句 实例 ，s1 的 实例 i 和 s, 的 实例 jb， 它 们 
之 间 具 有 数据 依赖 关系 ， 记 作 i, <,,,i， 那 么 有 一 条 从 ss 到 s1 的 边 。 


请 注意 ， 有 可 能 根据 两 个 语句 sj 和 ss 之 间 的 数据 依赖 关系， 在 PDG 
中 既 生 成 了 从 si 到 s> 的 边 ， 又 生成 了 从 s> 到 si 的 边 。 


在 语句 s; 和 s> 相 同 的 特殊 情况 下 ， i <s1 s» i 当 且 仅 当 ii < i 《Bi 按 
照 词 典 排 序 比 PP 小 ) 。 在 一 般 情 况 下 ，s1 和 s> 可 以 是 不 同 的 语句 ， 有 可 能 
属于 不 同 的 循环 馈 套 结构 。 


























[人 对 于 例 11.50 中 的 程序 ， 在 语句 si 的 实例 之 间 没 有 依赖 关系 。 
但 是 ， 语 句 s, 的 第 i 个 实例 必须 在 语句 s1 的 第 i 个 实例 之 后 发 生 。 更 粮 糕 的 
是 ， 因 为 数组 引用 W [A [i] ] 可 以 对 数组 的 W 的 每 个 元 素 进行 写 运 
算 ，s, 的 第 i 个 实例 依赖 于 所 有 之 前 的 ss 的 实例 。 也 就 是 说 ， 语 句 ss 依赖 
于 它 本 身 。 例 11.50 的 程序 的 PDG 显 示 在 图 11-40 中 。 请 注意 图 中 有 一 个 


只 包含 ;的 环 。 
| 个 


图 11-40 例 11. 50 的 程序 的 PDG 


程序 依赖 图 使 得 我 们 可 以 很 容易 地 确定 是 否 可 以 分 割 一 个 循环 中 的 
多 个 语句 。 在 一 个 PDG 中 ， 一 个 环 所 连接 的 各 个 语句 不 能 被 分 割 开 。 如 
果 si ss 是 一 个 环 中 两 个 语句 之 间 的 依赖 关系 ， 那 么 s1 的 人 条 些 实例 必须 
在 s 的 某 些 实例 之 后 发 生 ， 反 过 来 也 成 立 。 请 注意 ， 只 有 当 s1 和 s> 通 入 
在 同一 个 循环 中 的 时 候 才 可 能 有 这 种 相互 依赖 关系 。 因 为 有 这 种 相互 依 
赖 天 系 ， 我 们 不 能 先 执 行 完 一 个 语句 的 所 有 实例 之 后 再 执行 男 一 个 语句 
的 所 有 实例 ， 因 此 不 允许 进行 循环 裂变 转换 。 为 一 方面 ， 如 末 依 赖 关系 
s1 一 SS 是 单 癌 的 ， 我 们 就 可 以 对 这 个 循环 进行 分 制 ， 首 先 执行 si 的 所 有 
实例 ， 然 后 执行 s% 的 实例 。 


图 11-41b 显 示 了 图 11-41a 中 程序 的 程序 依赖 图 。 图 中 语句 sj 和 
ss 属于 一 个 环 ， 因 此 不 能 被 放 到 不 同 的 循环 中 去 。 但 是 我 们 可 以 把 语句 
sy 分 割 出 去 ， 并 在 执行 其 他 计算 之 前 执行 它 的 所 有 实例 ， 如 图 11-42 所 

示 。 第 一 个 循环 是 可 以 并 行 化 的 ， 但 是 第 二 个 循环 不 能 被 并 行 化 。 我 们 
可 以 在 第 一 个 循环 的 并 行 执行 之 前 和 之 后 放 上 一 个 同步 栅 障 ， 从 而 把 第 
一 个 循环 并 行 化 。 




















for (i = 0; i < n; i++) { 

Z[i] = Z[i] / W[i]; /* (si1) */ 

for (j = ij j <n; j++) { 

xX[i,j] = Y[i,j]*Y[i,j]; /* (s2) */ 
Z[j] = 2Z[j] + X[i,j]; /* (s3) */ 








a) 一 个 程序 b) 它 的 依赖 图 
图 11-41 例 11. 5.2 的 程序 和 依赖 图 


for (i = 0; i < n; i++) 
Tor (1] i 了 有 4) 
Xf ,让 = YIi, IY[i,j]; A/* (32) *#/ 
for (i = 0; i <n; i++) { 


z[i1 2 / WLi]; /* (s1) */ 
tor tj es BR | 
wi] s ZL + Ei] /* (s3) */ 





图 11-42 ”对 一 个 循环 许 套 结构 的 强 连 通 子 图 进行 分 组 





11.8.3 ”层次 结构 化 的 时 间 


在 一 般 情况 下 ， 关 系 <;,s, 的 计算 是 很 困难 的 。 但 是 对 于 茶 些 类 型 
的 程序 而 言 ， 我 们 有 一 个 直接 的 方法 来 计算 这 种 依赖 关系 。 本 布 中 的 优 
化 技术 经 第 被 应 用 于 这 一 类 程序 。 假 设 这 个 程序 是 块 结构 的 ， 由 循环 和 
简单 的 算术 运算 组 成 ， 并 且 不 包含 其 他 控制 结构 。 该 程序 中 的 语句 要 么 
古 一 个 赋值 语句 ， 要 么 是 一 个 语句 序列 ， 要 么 是 一 个 其 循环 体 为 单个 语 
人 句 的 循环 结构 。 这 样 ， 这 个 程序 的 控制 结构 就 形成 了 一 个 层次 结构 。 这 
个 层次 结构 的 顶层 结 点 表示 对 应 于 整个 程序 的 语句 。 单 个 赋值 语句 是 一 
个 叶子 结 点 。 如 果 茶 语句 是 一 个 语句 序列 ， 那 么 它 的 子 结 点 束 是 该 序列 
中 的 语句 。 这 些 子 结 皮 按照 语句 的 词典 排序 从 左 到 右 排 列 。 如 果 茶 语句 
征 一 个 循环 结构 ， 那 么 它 的 子 结 点 就 是 循环 体 对 应 的 子 图 ， 通 常 是 由 一 
个 或 多 个 语句 组 成 的 序列 。 


图 11-43 中 程序 的 层次 结构 显示 在 图 11-44 中 。 执 行 序列 的 层 























埋 构 特 性 在 图 11-45 中 独 重 显示 。 语 句 so 的 唯一 实例 在 所 有 其 他 运算 之 
因为 它 是 被 执行 的 第 一 个 语句 。 接 下 来 ， 我 们 执行 来 自 外 层 循 
环 的 第 一 个 迭代 的 所 有 指令 ， 然 后 再 执行 第 二 个 从 代 中 的 指令 ， 这 样 一 
直 疝 前 执行 。 对 于 循环 下 标 i 的 值 为 0 的 所 有 动态 实例 ， 语 名 sl、L2、L3 
和 ss 按照 正文 顺序 执行 。 我 们 可 以 重复 上 面 的 讨论 ， 生 成 执行 顺序 的 其 
他 部 分 。 


SO ; 
Li: for (i = 0; ...) { 
sil; 
L2: for (j = 0 .5 
S2; 
s3; 


} 
L3: for (Kk = 0; 
s4; 


sD; 





图 11-43 ”一 个 按 层次 结构 组 织 的 程序 


Prog 


> 
a Re 


S2 S3 s4 
图 11-44 例 11.53 中 的 程序 的 层次 结构 





图 11-45 例 11.53 中 的 程序 的 执行 顺序 








我 们 可 以 用 一 种 层次 结构 化 的 方式 来 解决 由 两 个 不 同 语句 生成 的 两 
个 实例 之 间 的 顺序 问题 。 如 果 两 个 语句 处 于 同一 个 循环 中 ， 我 们 从 最 外 
层 循环 开始 比较 它们 的 共同 循环 的 下 标 变 量 的 值 。 当 我 们 发 现 它 们 的 某 
个 下 标 具 有 不 同 值 时 ， 这 个 差 值 承 决 定 了 它们 之 间 的 顺序 。 只 有 当 较 外 
层 循 环 的 下 标 值 都 相同 的 时 候 ， 我 们 才 需 要 比较 下 一 个 内 层 循 环 的 下 标 
值 。 这 个 过 程 类 似 于 我 们 比较 以 小 时 /分 钟 / 秒 的 方式 所 表示 的 时 间 。 比 
较 两 个 时 间 时 ， 我 们 首先 比较 小 时 数 ， 只 有 当 它 们 的 小 时 数 相同 的 时 
候 ， 我 们 才 比 较 分 钟 ， 以 此 类 推 。 如 果 所 有 公共 循环 的 下 标 值 都 相同 ， 
那么 我 们 根据 它们 的 相对 正文 位 置 来 决定 它们 之 间 的 顺序 。 因 此 ， 我 们 
本 
时 间 。 


令 s1 为 一 个 般 套 在 深度 为 di 的 循环 中 的 语句 ， 而 s> 肉 套 在 深度 为 d， 
的 循环 中 ， 它 们 之 间 有 d 个 公共 (外 层 ) 循环 。 当 然 d<d1 晶 dz<d,。 假 设 
i = [zi :3 a ] 为 $1 的 一 个 实例 ， 而 了 3 [i ,J2 ] 为 s, 的 一 | 实例 。 

















i <, ,J 当 且 仪 当 下 列 条 件 之 一 成 立 : 
1) [i ,iy ,…ig]<[ji ,jz，,…ja]， 或 者 





2) iycldd 三 [jwisadjdls 县 在 正文 上 5 出 现在 定之 二; 


靳 言 [, 记 ,…ig]<[ 刘 ,jp2，…ja] 可 以 写成 如 下 的 线性 不 等 式 的 析 取 
起 。 

人 

(Ci=ji 八 人 iti=jai 人 ia<ja) 

只 要 数据 依赖 关系 的 条 件 和 上 面 的 析 取 式 中 的 某 个 子 句 同时 成 立 ， 
就 存在 一 个 从 Si 到 s 的 PDG 边 。 因 此 ， 我 们 可 能 需要 求解 多 达 d 或 d+1 个 


整数 线性 规划 问题 来 决定 某 一 条 边 是 否 存在 。 要 求解 的 问题 个 数 依赖 于 
语句 s1 是 否 按 照 正文 顺序 出 现在 sy 之 前 。 








11.8.4 并 行 化 算法 
现在 我 们 给 出 一 个 简单 的 并 行 化 算法 。 它 首先 把 计算 任务 分 解 到 尽 
可 能 多 的 不 同 循环 中 ， 然 后 独立 地 并 行 化 各 个 循环 。 
ER 在 允许 oO (1) 次 同步 的 情况 下 最 大 化 并 行 性 的 度数 。 
输入 : 一 个 带 有 数组 访问 的 程序 。 
输出 ， 带 有 固定 多 个 同步 栅 障 的 SPMD 代 码 。 
方法 ; 
1) 构造 程序 的 程序 依赖 图 ， 并 把 语句 分 划 为 强 连通 分 量 
(SCC) 。 回 忆 一 下 10.5.8 节 介绍 过 ， 一 个 强 连 通 分 量 是 原 图 的 一 个 满 
足下 列 条 件 的 最 大 的 分 量 ， 其 中 的 每 个 结 点 都 可 以 到 达 所 有 其 他 结 点 。 


2) 转换 代码 ， 使 之 按照 拓扑 顺序 执行 各 个 SCC。 必 要 时 可 以 应 用 
裂变 转换 。 


3) 对 每 个 SCC 应 用 算法 11.43， 寻 找 出 所 有 的 无 同步 并 行 性 。 在 每 
个 被 并 行 化 的 SCC 的 前 后 都 插入 同步 栅 障 。 








虽然 算法 11.54 能 够 找到 带 有 O (1) 次 同步 的 所 有 并 行 性 度数 ， 它 
仍然 存在 一 些 缺 皮 。 第 一 ， 它 可 能 引入 不 必要 的 同步 。 作 为 一 个 现实 问 
题 ， 如 采 我 们 把 这 个 算法 应 用 到 一 个 可 以 家 无 同步 地 并 行 化 的 程序 上 ， 
这 个 算法 会 对 每 个 语句 进行 并 行 化 ， 并 且 在 执行 各 个 语句 的 并 行 循环 之 
间 引 入 同步 机 障 。 第 二 ， 虽 然 只 会 有 固定 多 个 同步 ， 但 得 到 的 并 行 化 方 
案 会 在 每 次 同步 的 时 候 在 不 同 的 处 理 器 之 间 传 递 很 多 数据 。 有 些 情 况 
下 ， 通 信 开 销 会 使 得 并 行 化 的 代价 太 过 昂贵 ， 有 时 甚至 不 如 在 一 个 单 处 
理 需 上 顺序 执行 这 个 程序 。 在 后 面 的 各 节 中 ， 我 们 将 继续 给 出 提高 数据 
局 部 性 的 手段 ， 从 而 降低 通信 量 。 











11.8.5 11.8 节 的 练习 


练习 11.8.1: 把 算法 11.54 应 用 到 图 11-46 的 代码 上 。 


for (i=0; i<100; i++) 
A[i] = A[i] + X[i]; /* (s1) */ 
for (i=0; i<100; i++) 


for (j=0; j<100; j++) 
有 [Li 和 = Yi KE] AL A (2 宙 





图 11-46 练习 11. 8.1 的 代码 


练习 11.8.2: 把 算法 11.54 应 用 到 图 11-47 的 代码 上 。 


for (i=0; i<100; i++) 
ALij = A[i] + X[i]; /* (si1) */ 
for (i=0; i<100; i++) { 


B[i] = B[i] + A[il; /* (s2) */ 
for (j=0; j<100; j++) 
Clj] = YLj] + BO /* (33) #7/ 





图 11-47 练习 11. 8.2 的 代码 


练习 11.8.3: 把 算法 11.54 应 用 到 图 11-48 的 代码 上 。 


for (i=0; i<100; i++) 
A[i] = A[i] + X[i]; /* (s1) */ 
for (i=0; i<100; i++) { 
for (j=0; j<100; j++) 
BL[j] = ALi] + Y[jj; /* (s2) */ 


CLi] = BLi] + Z[i]s /* (3) */ 
for (j=0; j<100; j++) 
D[i,j] = A[i] + B[j]; /* (s4) */ 





图 11-48 练习 11. 8.3 的 代码 


11.9 流水 线 化 技术 


在 流水 线 化 技术 中 ， 一 个 任务 被 分 成 数 个 阶段 ， 各 个 阶段 在 不 同 的 
处 理 占 上 进行 。 比 如 ， 一 个 具有 n 个 达 代 的 循环 可 以 被 构造 一 个 n 阶 段 的 
流水 线 。 每 个 阶段 被 分 配给 不 同 的 处 理 右 ， 当 一 个 处 理 器 完成 了 它 负责 
的 阶段 后 ， 结 果 残 作为 输入 传送 到 流水 线 中 的 下 一 个 处 理 器 。 


下 面 我 们 首先 更 加 详细 地 解释 流水 线 化 的 概念 。 然 后 我 们 在 11.9.2 
节 中 给 出 了 一 个 实际 生活 中 的 被 称 为 “连续 过 松弛 方法 ”的 数值 算法 。 我 
们 用 这 个 例子 说 明 在 什么 样 的 情况 下 可 以 应 用 流水 线 化 技术 。 然 后 我 们 
在 11.9.6 市 中 正式 定义 需要 求解 的 约束 ， 并 在 11.9.7 节 中 描述 一 个 求解 这 
些 问 题 的 算法 。 如 果 一 个 程序 的 时 间 分 划 约 束 有 具有 多 个 独立 解 ， 那 么 就 
可 以 认为 它 具 有 最 外 层 的 完全 可 交换 循环 (fully permutable loop) 。 正 
如 11.9.8 节 中 将 讨论 的 ， 这 样 的 循环 可 以 很 容易 地 被 流水 线 化 。 








11.9.1 什么 是 流水 线 化 


前 面 我 们 尝试 对 一 个 循环 内 套 结构 进行 并 行 化 时 ， 我 们 对 这 个 循环 
供 套 结构 中 的 欠 代 进行 分 划 ， 使 得 任意 两 个 共享 数据 的 欠 代 都 被 分 配给 
同一 个 处 理 器 上 。 流 水 线 化 撤 术 允 许 不 同 处 理 需 共享 数据 ， 但 是 一 般 只 
能 以 “局 部 的 ”方式 来 共享 数据 ， 数 据 只 能 从 一 个 处 理 器 传递 到 所 在 处 理 
器 空间 中 的 邻近 处 理 器 上 。 下 面 给 出 一 个 简单 的 例子 。 


考虑 循环 : 


for (i = 1; i <= m; i++) 
for' (| = 1 4 xs my j++) 
xX[i] = X[i] + Y[i,j]; 


这 个 代码 把 Y 的 第 行 中 的 值 相 加 ， 并 把 结果 加 a 到 X 的 第 i 个 元 素 上 。 
其 中 的 内 层 循 环 对 应 于 求 和 过 程 。 因 为 数据 依赖 的 原因 ， 这 个 循环 必须 
顺序 执行 名， 但 是 不 同 的 求 和 过 程 之 间 是 独立 的 。 我 们 可 以 让 每 个 处 理 
虱 执 行 一 个 独立 的 求 和 过 程 ， 从 而 实现 代码 的 并 行 化 。 处 理 絮 i 访问 Y 的 








第 i 行 并 修改 X 的 第 i 个 元 素 。 


我 们 还 可 以 把 多 个 处 理 需 组 织 成 一 个 流水 线 来 执行 这 个 求 和 过 程 ， 
并 通过 求 和 过 程 的 重合 来 获取 并 行 性 ， 如 图 11-49 所 示 。 更 明确 地 讲 ， 
内 层 循环 的 每 个 迭代 都 可 以 被 当 作 流 水 线 的 一 个 阶段 : 第 j 个 阶段 获取 
在 前 一 阶段 生成 的 X 的 一 个 元 聚 ， 将 它 和 Y 的 一 个 元 么 相 加 ， 并 把 结果 
传递 到 下 一 个 阶段 。 请 注意 在 这 种 情况 下 ， 每 个 处 理 器 访问 Y 的 一 列 ， 
而 不 是 一 行 。 如 果 Y 是 按 列 存放 的 ， 那 么 通过 按 列 分 划 而 不 是 按 行 分 
划 ) 就 可 以 提高 局 部 性 。 





图 11-49 例 11. 55 中 的 流水 线 化 的 执行 过 程 ， 其 中 m=4，n=3 


第 一 个 处 理 器 处 理 完 前 一 个 任务 的 第 一 个 阶段 之 后 ， 我 们 就 可 以 立 
刻 局 动 一 个 新 的 任务 。 流 水 线 在 开始 时 是 空 的 ， 只 有 第 一 个 处 理 器 在 执 
行 第 一 个 阶段 。 在 它 完 成 处 理 之 后 ， 结 果 被 传送 到 第 二 个 处 理 器 ， 同 时 
第 一 个 处 理 器 开始 处 理 第 二 个 任务 ， 如 此 继续 。 按 照 这 种 方式 ， 流 水 线 
被 逐渐 填 满 ， 直 到 所 有 的 处 理 器 都 进入 忙 状态 。 当 第 一 个 处 理 器 完成 了 
最 后 一 个 任务 后 ， 流 水 线 开 始 排 空 ， 越 来 越 多 的 处 理 喜 进 入 空 采 状态 ， 
直到 最 后 一 个 处 理 占 完成 最 后 一 个 任务 。 在 稳定 状态 下 ，n 个 任务 在 由 n 
个 处 理 占 组 成 的 流水 线 中 并 行 执行 。 


把 流水 线 技术 和 不 同 处 理 絮 处 理 不 同 任务 的 简单 并 行 性 进行 比较 是 
很 有 意思 的 : 


。 流水 线 化 技术 只 能 应 用 于 深度 至 少 为 2 的 循环 嵌 套 结构 。 我 们 可 以 
把 外 层 循环 的 每 个 欠 代 当 作 一 个 任务 ， 而 把 内 层 循 环 的 各 个 迭代 当 
作 任 务 的 各 个 阶段 。 

。 在 一 个 流水 线 中 运行 的 任务 可 以 具有 数据 依赖 关系 。 属 于 各 个 任务 
的 同一 个 阶段 的 信息 航 存 放 在 同一 个 处 理 器 上 。 因 此 ， 由 一 个 任务 





的 第 个 阶段 生成 的 结果 可 以 直接 被 后 继任 务 的 第 个 阶段 使 用 ， 不 
会 产生 通信 开销 。 类 似 地 ， 由 不 同 任务 的 同一 个 阶段 所 使 用 的 每 个 
输入 数据 元 系 必 须 存放 在 同一 个 处 理 占 内 ， 如 例 11.55 所 示 。 

如 宁 任 务 是 独立 的 ， 那 么 简单 的 并 行 化 方案 具有 较 好 的 处 理 器 利用 
率 ， 原 因 是 各 个 处 理 器 可 以 一 起 开始 执行 ， 而 不 会 产生 填 满 和 排 衬 
流水 线 的 开销 。 但 是 ， 如 例 11.55 所 示 ， 在 一 个 流水 线 方 案 中 的 数 
据 访 问 模式 和 简单 并 行 化 方案 中 的 模式 不 同 。 如 果 流 水 线 化 扩 术 可 
以 降低 通信 量 ， 那 么 就 应 该 选择 这 个 技术 。 





11.9.2 ”连续 过 松弛 方法 一 个 例子 


连续 过 松弛 法 (Successive Over Relaxation，SOR ) 是 一 个 在 使 用 松 
弛 方法 求解 联 立 线性 方程 式 时 加 快 收 敛 速度 的 技术 。 图 11-50a 中 显示 的 
相对 简单 的 模板 解释 了 这 个 技术 的 数据 访问 模式 。 在 这 里 ， 数 组 中 的 一 
个 元 素 的 新 值 依赖 于 它 的 相 邻 元 素 的 值 。 这 个 运算 会 被 重复 执行 ， 直 到 
满足 某 种 收敛 标准 为 止 。 


图 11-50b 中 显示 的 是 关键 数据 依赖 关系 。 我 们 没有 显示 能 够 从 该 图 
中 已 包含 的 依赖 关系 推导 出 的 依赖 关系 。 比 如 ， 友 代 [ij] 依赖 于 友 代 
[i,j-1] , [i,j-2」] ， 等 等 。 从 这 个 依赖 关系 可 以 清楚 地 看 出 不 存在 无 同 
步 并 行 性 。 因 为 最 长 的 依赖 关系 链 包 含 了 O (m+n) 个 边 ， 通 过 引入 同 
步 ， 我 们 应 该 可 以 找到 度数 为 1 的 并 行 性 ， 并 在 O (m+n) 个 时 间 单 位 内 
执行 O (mn) 运算 。 














(i=0; i <= m; i 
for (j = 0; j <= n; j++) 
X[j+1] = 1/3 * (X[j] + X[j+1] + X[j+2]) 


a) 原来 的 源 代码 b) 代码 中 的 数据 依赖 关系 
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图 11-50 ”连续 过 松弛 法 (SOR) 的 例子 


特别 地 ， 我 们 看 到 图 11-50b 中 角度 为 150* 四 的 和 斜 线 上 的 各 个 迭代 之 
间 没 有 数据 依赖 关系 。 它 们 只 依赖 于 比较 靠近 原点 的 斜 线 上 的 迭代 。 因 
此 ， 我 们 可 以 从 原点 上 的 和 斜 线 开始 逐步 向 外 ， 逐 条 斜 线 地 执行 线 上 的 迫 
代 ， 从 而 达到 并 行 化 这 个 代码 的 目的 。 我 们 把 一 个 斜 线 上 的 全 部 迭代 称 


为 波 阵 面 (wave front) ， 而 这 样 的 并 行 化 方案 被 称 为 波 阵 面 推进 


(wavefronting) 。 


11.9.3 ”完全 可 交换 循环 


我 们 首先 介绍 一 下 完全 可 交换 (full permutability) 的 概念 。 这 个 概 
念 对 于 流水 线 化 和 其 他 一 些 优化 技术 都 是 有 用 的 。 多 个 循环 是 完全 可 区 
换 的 条 件 是 它们 可 以 任意 地 排列 而 不 会 改变 原 程 序 的 语义 。 一 旦 多 个 循 
环 具 有 完全 可 交换 的 性 质 ， 我 们 可 以 很 容易 地 把 相应 的 代码 流水 线 化 ， 
并 对 代码 应 用 某 些 转换 《〈 比 如 分 块 技术 ) 来 提高 数据 局 部 性 。 


图 11-50a 中 给 出 的 SOR 代 码 不 是 完全 可 交换 的 。 如 11.7.8 节 所 示 ， 
交换 两 个 循环 的 位 置 意 味 着 原来 的 迭代 空间 中 的 迭代 按照 逐 列 (而 不 是 
逐 行 ) 的 方式 执行 。 比 如 ， 原 来 在 迭代 [2,3」 中 的 计算 将 会 在 迭代 
[1,4」 的 计算 之 前 执行 ， 这 就 违反 了 图 11-50b 中 的 依赖 关系 。 


然而 ， 我 们 可 以 通过 代码 转换 使 得 上 面 的 SOR 代 码 变 成 完全 可 交换 
的 。 对 这 个 代码 应 用 仿 射 转换 








WN 


可 得 到 图 11-51a 中 所 示 代 码 。 经 过 转换 得 到 的 代码 是 完全 可 交换 的 ， 交 
换 后 的 版 本 如 图 11-51c 所 示 。 我 们 在 图 11-51b 和 图 11-51d 中 分 别 显 示 了 
这 两 个 程序 的 迭代 空间 和 数据 依赖 关系 。 从 这 个 图 中 可 以 很 容易 看 出 这 
个 重新 排序 保持 了 每 一 对 具有 数据 依赖 关系 的 访问 之 间 的 相对 顺序 。 


当 我 们 交换 循环 时 ， 我 们 极 大 地 改变 了 最 外 层 循环 的 各 个 迭代 所 执 
行 的 运算 集合 。 我 们 在 调度 这 些 运算 时 具有 这 样 的 自由 度 ， 说 明 在 对 程 
序 的 运算 进行 排序 时 有 很 大 的 回旋 余地 。 调 度 的 余地 意味 着 存在 并 行 化 
的 机 会 。 在 本 节 的 稍 后 我 们 将 说 明 如 果 一 个 循环 授 套 结构 具有 k 个 最 外 
层 的 完全 可 交换 循环 ， 我 们 仪 仪 需要 引入 O(n) 个 同步 运算 ， 就 可 以 
得 到 O (k-1) 度 的 并 行 性 〈n 是 一 个 循环 中 的 迭代 的 个 数 ) 。 











亲族 


和 
了 








i 
for (j = 1; = itn; j++) 
X[j-i+1] = 1/3 * (X[j-i] + X[j-i+i] + X[j-i+2]) 
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1 
2) 对 图 11-50 应 用 转换 L ?后 得 到 的 代码 b) 图 11-5la 中 的 代码 的 数据 依赖 关系 
人 
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for (j = 0; j <= mtn; j++) 
for (i = max(0,j); i <= min(m,j), i++) 
X[j-i+1] = 1/3 * (X[j-i] + X[j-i+1] + X[j-i+2]) 











c) 图 11-51a 中 的 两 个 循环 的 一 个 重新 排列 图 11-51c 中 代码 的 数据 依赖 关系 
图 11-51 图 11-50 中 代码 的 完全 可 交换 版 本 


11.9.4 把 完全 可 交换 循环 流水 线 化 








一 个 具有 k 个 最 外 层 完全 可 交换 循环 的 循环 能 套 结构 可 以 被 构造 为 
一 个 O(k-1) 维 的 流水 线 。 在 SOR 的 例子 中 ，k=2， 因 此 我 们 可 以 把 处 
理 需 构造 成 一 个 线性 流水 线 。 


我 们 可 以 用 两 种 不 同 的 方法 对 上 面 的 SOR 代 码 进 行 流水 线 化 ， 如 图 
11-52a 和 图 11-52b 所 示 。 这 两 种 流水 线 化 方案 分 别 对 应 于 图 11-51a 和 图 
11-51c 所 示 的 两 种 可 能 的 排列 。 在 每 一 种 情况 下 ， 相 应 迭代 空间 的 每 一 
列 组 成 一 个 任务 ， 而 每 一 行 组 成 一 个 流水 线 阶段 。 我 们 把 第 i 个 阶段 分 
配给 处 理 器 i， 因 此 每 个 处 理 器 执行 内 层 循环 的 代码 。 不 考虑 边界 条 
件 ， 只 有 在 处 理 器 p-1 执 行 了 迭代 i-1 之 后 ， 处 理 器 p 才 可 以 执行 迭代 i。 


/* 0 <=p <= m */ 
iar Ci = p33 “= pin jr 
if (p > 0) wait (p-1); 


X[j-p+1] = 1/3 * (X[j-p] + X[j-p+1] + X[j-p+2]); 
if (p < min (m,j)) signal (p+1); 





} 
a) 把 处 理 器 分 配给 各 行 





/* 0 <= p <= mtn */ 
for (i = max(0,p); i <= min(m,p); i++) { 
if (p > max(0,i)) wait (p-1); 


X[p-i+1] = 1/3 * (X[p-i] + X[p-i+1] + X[p-i+2]); 
if (p < mtn) & (p > i) signal (p+1); 
} 





b) 把 处 理 器 分 配给 各 列 
图 11-52 ”图 11-51 中 的 代码 的 两 个 流水 线 化 实现 


假设 每 个 处 理 器 用 同样 的 时 间 来 执行 一 个 欠 代 ， 并 且 同 步 运算 在 瞬 
时 发 生 。 这 两 个 流水 线 化 方案 将 并 行 执行 同 样 的 达 代 ， 唯 一 的 区 别 古 它 
们 的 处 理 器 分 配方 法 不 同 。 在 图 11-51b 中 的 迭代 空间 中 ， 所 有 并 行 执行 
Ug 
万 插 11-50b。 


但 是 在 实践 中 ， 珊 有 高 速 缓存 的 处 理 右 执行 同一 代码 所 花 的 时 间 并 
不 总 是 相同 的 ， 用 于 同步 运算 的 时 间 也 会 有 所 变化 。 使 用 同步 栅 障 将 使 
所 有 的 处 理 需 按照 一 致 的 步调 进行 运算 。 和 同步 栅 障 方法 不 同 ， 流 水 线 
化 技术 最 多 要 求 处 理 桌 和 和男 外 两 个 处 理 器 进行 同步 和 通信 。 因 此 ， 流 水 
线 化 的 波 阵 面 更 加 松弛 ， 允 许 有 些 处 理 器 领先 而 其 他 处 理 费 暂时 落后 。 
0 0 3 0 
性 能 。 


可 以 把 这 个 计算 任务 流水 线 化 的 方法 有 很 多 ， 上 面 显示 的 流水 线 化 
方案 只 是 其 中 的 两 个 。 我 们 说 过 ， 只 要 一 个 循环 嵌 套 结构 是 完全 可 交换 
的 ， 我 们 在 选择 代码 并 行 化 方案 方面 就 有 很 大 的 自由 度 。 第 一 个 流水 线 
方案 把 迭代 [i,j」 映射 到 处 理 嚣 i， 第 二 个 方案 把 迭代 [i,j」 映射 到 处 理 
器 j 。 只 要 co 和 cj 是 正常 数 ， 我 们 就 可 以 把 迭代 [Lij] 映射 到 处 理 器 














coi+cjj， 从 而 得 到 其 他 的 流水 线 化 方案 。 这 样 的 方案 将 创建 出 不 同 的 流 
水 线 ， 它 们 的 松弛 波 阵 面 位 于 90。 (不 含 ) 到 180。 (不 含 ) 之 间 。 


11.9.5 “一般 性 的 理论 





刚刚 讨论 的 例子 解释 了 关于 流水 线 化 的 一 般 性 理论 : 如 果 我 们 能 够 
在 一 个 循环 拱 套 结构 中 找到 至 少 两 个 不 同 的 最 外 层 循环 ， 并 满足 所 有 的 
依赖 关系 ， 那 么 就 可 以 把 这 个 计算 过 程 流水 线 化 。 一 个 具有 k 个 最 外 层 
完全 可 交换 循环 的 循环 能 套 结 构 具 有 k-1 度 的 流水 线 化 并 行 度 。 


不 能 被 流水 线 化 的 循环 钥 套 结构 没有 可 交换 的 外 层 循环 。 例 11.56 
给 出 了 这 样 的 例子 。 为 了 遵循 所 有 的 依赖 关系 ， 在 最 外 层 循环 中 的 每 个 
迭 代 必须 精确 执行 原来 代码 中 的 计算 任务 。 但 是 ， 这 样 的 代码 仍然 可 能 
在 内 层 循环 中 包含 并 行 性 。 要 利用 这 种 并 行 性 ， 我 们 必须 引入 至 少 n 个 
同步 运算 ， 其 中 n 是 最 外 层 循环 中 的 迭代 个 数 。 


图 11-53 是 我 们 在 例 11.50 中 所 见 程序 的 一 个 更 复杂 的 版 本 。 
如 图 11-53b 的 程序 依赖 图 所 示 ， 语 句 s1 和 s, 属 于 同一 个 强 连通 分 量 。 因 
为 我 们 不 知道 矩阵 A 中 的 内 容 ， 所 以 必须 伪 设 i 帮 句 s, 中 的 访问 可 以 读 取 
X 的 任何 元 素 。 从 语句 s1 到 语句 s 之 间 有 一 个 真 依赖 关系 ， 并 且 从 语句 s， 
到 语句 si 存在 一 个 反 依 赖 关 系 。 这 两 个 语句 都 没有 进行 流水 线 化 的 机 
会 ， 因 为 属于 外 层 循环 的 欠 代 i 的 所 有 运算 必须 在 属于 返 代 i+1 的 所 有 运 
为 了 找到 更 多 的 并 行 性 ， 我 们 对 内 层 循 环 重复 并 行 化 过 
程 。 第 二 个 循环 中 的 迭代 可 以 被 无 同步 地 并 行 化 。 因 此 ， 我 们 需要 200 
个 间 步 柱 障 ， 在 内 层 循环 的 每 次 执行 之 前 和 之 后 各 需要 一 个 。 

















图 11-53 ”一 个 顺序 化 的 外 层 循环 〈 参 见 图 a) 以 及 它 的 PDG 图 (参见 图 b) 


11.9.6 时间 分 划 约 束 


现在 我 们 关注 寻找 流水 线 化 并 行 性 的 问题 。 我 们 的 目标 是 把 一 个 计 
算 任务 转变 成 为 一 组 可 流水 线 化 的 任务 。 为 了 找到 流水 线 化 的 并 行 性 ， 
我 们 没有 像 处 理 循 环 并 行 性 时 那样 直接 求 出 各 个 处 理 右 上 将 执行 哪些 计 
算 ， 而 是 提出 了 下 面 的 根本 性 问题 ， 所 有 可 能 的 遵循 循环 中 原 有 数据 依 
赖 关 系 的 执行 序列 有 哪些 ?” 显然， 原来 的 执行 序列 满足 所 有 的 数据 依赖 
关系 。 问 题 是 是 否 存 在 这 样 的 仿 射 转换 ， 由 它 可 以 创建 另 一 种 调度 ， 使 
得 最 外 层 循 环 的 各 个 迭代 执行 的 运算 集合 和 原来 不 同 ， 但 是 依然 满足 所 
有 的 依赖 关系 。 如 宋 我 们 能 够 找到 这 样 的 转换 ， 就 能 够 把 这 个 循环 结构 
流水 线 化。 要 点 在 于 如 宋 在 调度 运算 时 存在 自由 度 ， 那 么 就 存在 并 行 
性 。 后 面 将 会 解释 如 何 从 这 样 的 转换 中 获取 流水 线 化 并 行 性 的 细节 问 


题 。 











为 了 找 出 可 接受 的 外 层 循环 的 重新 排序 ， 我 们 希望 为 每 个 语句 找到 
一 个 一 维 仿 射 变换 ， 这 个 变换 把 原来 的 循环 下 标 值 映 射 到 最 外 层 循环 的 
迭代 编号 上 。 如 果 这 样 的 分 配 能 够 满足 程序 中 的 所 有 数据 依赖 关系 ， 那 
么 变换 就 是 合法 的 。 下 面 显示 的 “时 间 分 划 约 束 ” 束 是 说 如 果 一 个 运算 依 
赖 于 力 一 个 运算 ， 那 么 分 配给 前 一 个 运算 的 最 外 层 循 环 的 迭代 必须 不 早 
于 分 配给 第 二 个 运算 的 过 代 。 如 果 它 们 被 分 配 到 同一 个 达 代 ， 我 们 部 知 
着 在 此 迭 代 中 第 一 个 运算 必须 在 第 二 个 之 后 执行 。 

程序 的 一 个 仿 射 分 划 上 映射 是 一 个 合法 的 时 间 分 划 〈]legal-time 


partition) 当 且 仅 当 对 于 任意 两 个 具有 依赖 关系 的 〈 可 能 相同 的 ) 访 
问 ， 比 如 购 套 在 循环 结构 di 中 的 语句 si 中 的 访问 











FH = <Fi,fi,Bi,bl> 
和 和 骸 套 在 循环 结构 d 中 的 语句 S> 的 访问 


分 别 对 应 于 语句 sS1 和 sz 的 一 维 分 划 映 射 <Cucl> 和 <C2cz> 满 足下 面 的 时 间 


分 划 约 束 (time-partition constraint) : 


。 对 于 满足 下 列 条 件 的 Zu 中 所 有 的 i 和 Z2 中 的 所 有 ip 





1) i < s, 12 

2) Biii+b1>0 

3) Biz+b>>0 

4) Fiii+f1=F2iz+f> 

必然 有 CiTe Cteys 

图 11-54 中 显示 的 这 个 约束 和 空间 分 划 约 束 看 起 来 非常 相似 。 它 是 
空间 分 划 约 束 的 一 个 放松 版 本 。 如 宁 两 个 迭代 指 回 同 一 个 位 置 ， 这 个 约 
束 不 要 求 它们 被 映射 到 同一 个 分 划 单 元 。 我 们 只 要 求 这 两 个 达 代 之 间 的 


相对 执行 顺序 保持 不 变 。 也 惑 是 说， 在 空间 分 划 约 束 中 使 用 = 的 地 方 ， 
这 个 约束 使 用 <。 
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图 11-54 时间 分 划 约 束 


我 们 知道 ， 这 个 时 间 分 划 约 束 至 少 存 在 一 个 解 。 我 们 可 以 把 最 外 层 
循环 的 每 个 兴 代 中 的 运算 映射 到 同一 个 达 代 中 去 ， 此 时 所 有 的 数据 依赖 
关系 部 得 到 满足 。 对 于 那些 不 能 被 流水 线 化 的 程序 ， 这 个 解 是 它们 的 时 
间 分 划 约 束 的 唯一 解 。 男 一 方面 ， 如 果 我 们 能 够 找到 时 间 分 划 约 束 的 多 
个 独立 解 ， 这 个 程序 就 能 够 被 流水 线 化 。 每 个 独立 解 对 应 于 最 外 层 完全 
可 交换 循环 嵌 套 结构 中 的 一 个 循环 。 如 你 所 期 望 的 ， 因 为 例 11.56 中 的 





程序 没有 可 流水 线 化 的 并 行 性 ， 因 此 从 中 抽取 得 到 的 时 间 分 划 约 束 只 有 
一 个 独立 解 。 而 上 面 的 SOR 人 代码 的 例子 则 存在 两 个 独立 解 。 


[TO 我 们 考虑 一 下 例 11.56， 特 别 是 考虑 语句 s1 和 so 中 对 数组 X 的 引 
用 之 间 的 依赖 关系 。 因 为 语句 ss 中 的 访问 不 是 仿 射 的 ， 所 以 在 涉及 语句 
ss 的 依赖 分 析 中 ， 我 们 把 矩阵 X 建 模 为 一 个 标量 变量 ， 从 而 近似 地 处 理 
这 个 访问 。 令 (1j) 为 s1 的 一 个 动态 实例 的 下 标 值 ， 令 i 为 ,的 一 个 动态 
实例 的 下 标 值 。 令 语 句 s1 和 s5 的 计算 任务 的 映射 分 别 为 < ee er ,C1> 
Csi es 


让 我 们 首先 考虑 从 s1 到 ss 的 依赖 关系 所 决定 的 时 间 分 划 约 束 。 这 
样 ， 如 果 i<Y， 那 么 转换 之 后 的 s1 的 第 (ij) 个 达 代 不 得 晚 于 转换 之 后 的 
55 的 第 i 个 达 代 。 也 束 是 说 


L 


展开 后 得 到 
Cllli+C12j+C1SCo211 +C2 


因为 j 和 i 及 i 无 关 ， 所 以 可 以 取 任 意 大 的 值 ， 因 此 Cis=0 必 须 成 立 。 可 
知 ， 这 个 约束 的 一 个 可 能 的 解 是 


Ci11=Co1=1 且 C1?=c1=co=0 


对 于 从 S> 到 si 以 及 从 s> 到 其 自身 的 依赖 关系 的 分 析 将 得 到 类 似 的 结 
果 。 外 层 循 环 的 第 i 个 迭代 由 s> 的 第 i 个 实例 和 s; 的 所 有 实例 (i,j) 组 成 。 
在 这 个 特定 的 解 中 ， 这 个 友 代 将 被 分 配给 第 i 个 时间 步 又。 选择 其 他 的 
Cil1、C12、GC21、C1、C2 的 值 会 得 到 类 似 的 分 配方 法 ， 但 是 会 存在 一 些 不 
进行 任何 运算 的 时 间 步 骤 。 也 就 是 说 ， 调 度 这 个 外 层 循环 的 所 有 方法 都 
要 求 其 中 的 迭代 按照 与 原 代 码 同 样 的 顺序 进行 。 不 管 全 部 的 100 个 迭代 
是 在 同一 个 处 理 器 上 执行 ， 还 是 在 100 个 不 同 的 处 理 器 上 执行 ， 又 或 在 1 
一 100 之 间 的 任意 多 个 处 理 器 上 运行 ， 上 面 的 论断 都 成 立 。 


在 图 11-50a 中 显示 的 SOR 代 码 中 ， 写 引用 X [j+1] 和 它 本 
， 以 及 代码 中 的 三 个 读 引 用 之 间 具 有 依赖 关系 。 我 们 要 为 该 赋值 语句 
寻找 计算 任务 的 映射 < [Ci,C,」,c>， 使 得 如 果 存 在 从 Gij) 到 ij) 的 
依赖 关系 ， 那 么 
L i 
[Co Cl, +rsr[c c21|,| + 
J 
根据 定义 ，(i,j) <(i',7)， 也 就 是 说 ， 要 么 i<iY， 要 么 (i=i 作 j<j') 。 

让 我 们 考虑 三 对 数据 依赖 关系 : 

1) 从 写 访问 X [j+1] 到 读 访 问 X [j+2] 之 间 的 真 依赖 关系 。 因 为 
它们 的 实例 必须 访问 同一 个 位 置 ， 因 此 j+1=j'+2， 或 者 说 j=j'+1。 把 j=j 
+1 蔡 换 到 时 间 约 束 中 ， 我 们 得 到 

Ge 0 
由 j=j+1 可 知 j>j ， 上 面 的 先后 关系 约束 归 约 为 i<iY。 因 此 
Cj1-C>>0 


2) 从 读 访问 X [j+2] 到 写 访 问 X Dj+1] 的 反 依赖 关系 。 这 里 j+2=j 
+1， 即 j=j-1。 把 j=j-1 代 入 时 间 约 柬 我 们 得 到 


C1〈i-i) +C2>>0 
当 i=i 时 得 
C2>0 
当 i<i 时 ， 因 为 C>>0， 我 们 得 到 
C1>0 


3) 从 写 访问 X [jt+1j」 到 目 映 的 输出 依赖 。 这 里 j=j。 时 间 约 束 被 归 


约 为 


Ci (i-i) >0 





因为 只 有 i<i 是 相关 的 ， 我 们 还 是 得 到 





C1>0 

其 余 的 依赖 关系 没有 产生 任何 新 的 约束 。 总 共有 三 个 约束 : 
C1>0 
C,>0 
C1-C,>0 


下 面 是 这 些 约束 的 两 个 独立 解 : 
11 T1 
中 
第 一 个 解 保 持 了 最 外 层 循环 的 迭 代 执 行 顺序 。 图 11-50a 中 原来 的 
SOR 代 码 和 图 11-51a 中 转换 得 到 的 代码 都 是 这 种 安排 的 例子 。 第 二 个 解 
把 沿 着 135° 斜 线 上 的 过 代 放置 在 外 层 循环 的 同一 个 达 代 中 。 图 11-51b 中 
显示 的 是 具有 这 种 最 外 层 循环 组 成 方式 的 代码 的 一 个 例子 。 
请 注意 ， 存 在 多 个 其 他 可 能 的 独立 解 对 ， 比 如 
网 
[中 
也 是 具有 同样 约束 的 独立 解 。 我 们 选择 最 简单 的 回 量 来 简化 代码 转换 。 











11.9.7 ”用 Farkas 引 理 求 解 时 间 分 划 约 束 


因为 时 间 分 划 约 束 和 空间 分 划 约 束 类 似 ， 那 么 是 人 否 可 以 用 一 个 类 似 
的 算法 来 求解 这 些 约束 呢 ? 遗 憾 的 是 ， 两 类 问题 之 间 的 少许 不 同 使 得 两 








个 解决 方法 在 技术 上 存在 很 大 不 同 。 算 法 11.43 直 接 求 解 C1、c1、C2 和 > 
的 满足 下 面条 件 的 值 ， 使 得 对 于 所 有 zd 中 记 和 zw 中 的 bp， 如 果 


F1i1+ 人 =F2iz+fz 
成 立 ， 那 么 
Cl11+C1=Co2iz+C>? 


根据 循环 界限 而 得 到 的 线性 不 等 式 只 用 于 确定 两 个 引用 是 人 否 具 有 数 
据 依 赖 关 系 ， 没 有 其 他 用 途 。 


为 了 找 出 时 间 分 划 约 束 的 解 ， 我 们 不 能 忽略 线性 不 等 式 i <i? ， 急 
略 它们 经 常会 使 得 只 存在 平凡 解 ， 而 平凡 解 会 把 所 有 的 迭代 都 放 到 同一 
0 因此 ， 和 寻找 时 间 分 划 约 束 解 的 算法 必须 同时 处 理 等 式 和 
\ 寺 工 \o 

我 们 希望 解决 的 一 般 性 问题 是 : 给 定 一 个 矩阵 A， 找 出 一 个 同 量 c 使 
得 对 于 所 有 满足 Ax>0 的 向 量 x， 都 有 cIx>z0。 换 句 话 说， 我们 在 寻找 向 
量 c， 使 得 ec 和 Ax>0 所 定义 的 多 面体 之 内 任何 回 量 的 内 积 总 是 大 于 0。 


这 个 问题 可 以 用 Farkas 引 理解 决 。 令 A 为 一 个 mxn 的 实数 矩阵 ， 且 c 
为 一 个 实数 、 非 零 的 n 维 向 量 。Farkas 引 理 说 要 么 原 不 等 式 系 统 





Ax>0 cix<0 
具有 一 个 实数 解 x， 要 么 相应 的 对 偶 系 统 
AlIy=c，yz0 
具有 一 个 实数 解 y， 但 是 两 者 不 会 同时 成 立 。 
这 个 对 偶 系 统 可 以 用 Fourier-Motzkin 消 除法 进行 处 理 ， 通 过 投影 消 
除 变 量 y。 这 个 引 理 保证 ， 对 于 每 个 对 偶 系 统 中 有 人 解 的 向 量 ce， 原 系统 不 


存在 解 。 换 句 话 说 ， 我 们 可 以 找到 对 偶 系 统 A Ty=c，y>0 的 解 ， 从 而 证 
明 系 统 的 否 命题 ， 即 对 于 所 有 满足 Ax>0 的 x， 都 有 cx>0。 











[| 


关于 Farkas 引 理 


天 于 这 个 引 理 的 证 明 可 以 在 很 多 关于 线性 规划 的 标准 读本 中 找 
到 。 最 早 在 1901 年 被 证 明 的 Farkas 引 理 是 择 一 性 定理 之 一 。 这 些 定理 
相互 等 价 ， 但 是 尽管 经 过 了 多 年 的 尝试 ， 人 们 仍然 没有 找到 有 关 这 个 
引 理 或 者 它 的 菜 个 等 价 定理 的 简单 、 直 观 的 证 明 。 











为 一 个 外 层 的 顺序 循环 找到 一 个 合法 的 最 大 线性 独立 的 仿 
时装 间 分 划 映 射 。 


输入 : 一 个 市 有 数组 访问 的 循环 仍 套 结构 。 
输出 : 线性 独立 时 间 分 划 映 射 的 最 大 集 。 

方法 : 算法 包括 以 下 步骤 : 

1) 找 出 程序 中 所 有 其 有 数据 依赖 关系 的 访问 对 。 


2) 对 于 每 一 对 具有 数据 依赖 的 访问 ， 在 循环 结构 di 中 的 语句 si 中 的 
访问 .和 =<F1，f1,B1,b1> 和 构 套 在 循环 结构 ds 中 的 语句 s, 的 访问 . 宛 = 
<F，，f5,B2,b2>， 令 <C1,c1> 和 <C2,cs> 分 别 为 语句 s1 和 ss 的 《未 知 的 ) 时 间 
分 划 映 射 。 回 顾 一 下 ， 时 间 分 划 约 束 是 说 : 


。 如 果 Z4 中 所 有 的 1 和 Zo 中 的 i 满足 下 列 条 件 ， 














1) i < i 

2) Biijtbi>0 

3) Biz+b>>0 

4) Fiii+tf1=F>is+f> 

那么 必然 有 Ciii+ci<C2iz+c? 


因为 二 sis 是 多 个 子 句 的 析 取 式 ， 因 此 我 们 可 以 为 每 个 子 句 创立 一 个 


约束 系统 ， 并 单独 对 它们 求解 。 方 法 如 下 : 
(a) 和 算法 11.43 的 步骤 2 〈a) 类 似 ， 对 方程 
F1i1+ 人 =F2i2z+f2 


应 用 局 斯 消除 法 把 问 量 











归 约 为 某 个 未 知 量 的 向 量 x。 


(b) 令 c 为 这 个 分 划 映 射 中 的 所 有 未 知 量 。 把 因为 分 划 映 射 而 产生 
的 线性 不 等 式 约束 可 写成 


cIDx>0 
其 中 D 为 一 个 矩阵 。 
Cc) 把 循环 下 标 变量 的 先后 关系 约束 和 循环 边界 表示 为 
Ax>0 
其 中 A 为 一 个 矩阵 。 


(d) 应 用 Farkas 引 理 。 找 到 满足 上 面 两 个 约束 的 x 的 任务 等 价 于 寻 
找 满足 下 列 条 件 的 y: 


Aly=DIicHy>0 


请 注意 ， 这 里 的 cID 就 是 Farkas 引 理 中 的 cI， 而 且 我 们 使 用 的 是 这 个 
引 理 的 否定 形式 。 


(e) 在 这 个 形式 中 ， 应 用 Fourier-Motzkin 消 除法 把 y 的 变量 通过 投 
影 消除 ， 并 把 关于 系数 c 的 约束 表示 为 Ec>0。 


(f) 令 E'c>0 为 不 包含 常量 项 的 约束 。 


3) 使 用 附录 B 中 的 算法 B.1， 找 出 E'c'>0 的 线性 独立 解 的 最 大 集合 。 
这 一 复杂 的 算法 的 基本 思路 古 跟 踪 每 个 语句 的 当前 解 集 ， 并 通过 插入 一 
些 约束 不 断 寻 找 更 多 的 独立 解 。 这 些 被 插入 的 约束 会 保证 相应 的 解 至 少 
对 于 一 个 语句 来 说 是 线性 独立 的 。 


4) 根据 找到 的 每 个 解 c 得 到 一 个 仿 射 时 间 分 划 上 映射 。 映 射 的 常量 项 
通过 不 等 式 Ec>0 得 到 。 


[TO 例 11.57 的 约束 可 以 写作 
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] 
[-C -Cao C2 (cc 和 
1 
[I 
4 
[-1 0 1 0]|’|=0 
L 
] 
Farkas 引 理 说 这 些 约束 和 
_1 = 
0 -Cy 
[| = Zz 宇 
1 C1 
0 Co 


等 价 。 解 这 个 不 等 式 系统 ， 我 们 得 到 


Ci11=C21>0 且 C1>=co-c1=0 


请 注意 ， 我 们 在 例 11.57 中 得 到 的 特定 解 满足 这 些 约束 。 
11.9.8 代码 转换 


如 果 一 个 循环 授 僚 结构 的 时 间 分 划 约 束 存在 k 个 独立 解 ， 那 么 束 可 
能 把 这 个 循环 馈 套 结构 转换 成 为 具有 k 个 最 外 层 完全 可 交换 循环 的 结 
构 。 可 以 对 这 个 结构 进行 转换 得 到 k-1 度 的 流水 线 ， 或 得 到 k-1 个 可 并 行 
化 的 内 层 循环 。 而 且 ， 我 们 还 可 以 对 完全 可 交换 循环 应 用 分 块 技 术 ， 以 
| 








利用 完全 可 交换 循环 
如 果 一 个 循环 嵌 套 结构 的 时 间 分 划 约束 具有 k 个 独立 解 ， 我 们 就 可 
以 容易 地 根据 这 些 解 生成 一 个 循环 嵌 套 结构 ， 其 最 外 层 的 k 个 循环 是 完 
全 可 交换 的 循环 。 通 过 直接 把 第 k 个 解 变 成 新 转换 的 第 k 行 ， 我 们 就 可 以 
得 到 这 样 的 转换 。 一 旦 构造 出 这 个 仿 射 变换 ， 我 们 就 可 以 使 用 算法 
11.45 来 生成 代码 。 
[EC 在 例 11.58 中 为 我 们 的 SOR 例 子 找到 的 解 是 
1 1 
[lal | 


E00 


1 0 
dd 
这 个 转换 生成 图 11-51a 中 的 代码 。 
如 果 我 们 把 第 二 个 解 作为 第 一 行 ， 我 们 可 以 得 到 转换 


1 1 
Wy 
它 生成 图 11-51c 中 的 代码 。 


显然 ， 这 样 的 转换 产生 了 一 个 合法 的 顺序 程序 。 第 一 行 按照 第 一 个 
解 来 分 划 整 个 达 代 空间 。 时 间 约 束 保证 这 样 的 分 解 不 会 违反 任何 数据 依 
赖 关 系 。 然 后 ， 我 们 根据 第 二 个 解 对 各 个 最 外 层 循环 中 的 欠 代 进行 分 
划 。 这 个 分 划 必 然 是 合法 的 ， 原 因 是 我 们 处 理 的 是 原来 的 迭代 空间 的 子 
集 。 对 于 窍 阵 中 的 其 余 各 行 ， 以 上 讨论 仍然 成 立 。 因 为 我 们 可 以 任意 排 
列 这 些 解 ， 所 以 这 些 循环 是 完全 可 交换 的 。 


利用 流水 线 化 技术 


我 们 可 以 轻易 地 把 一 个 具有 k 个 最 外 层 完 全 可 交换 循环 的 循环 多 套 
结构 转换 成 为 一 个 具有 k-1 度 流水 线 并 行 性 的 代码 。 


让 我 们 回 到 SOR 的 例子 。 在 例子 中 的 循环 都 被 转换 为 完全 可 
父 换 有 的 人 循环 之 后 ， 我 们 知道 只 要 在 迭代 [ij,i-1] 和 [Li-1i] 执行 之 
后 ， 返 代 [ij,i,」 就 可 以 被 执行 。 我 们 可 以 用 如 下 方法 在 一 个 流水 线 中 
保证 这 个 顺序 。 我 们 把 迭代 和 分 配给 处 理 器 pl。 每 个 处 理 器 按照 原来 的 
顺序 执行 内 层 循 环 中 的 迭代 ， 因 此 保证 了 过 代 [ij,i,] 在 迭代 [ii-1] 
之 后 执行 。 另 外 ， 我 们 要 求 处 理 器 p 在 执行 欠 代 [p,i,」 之 前 必须 等 待 处 
理 器 p-1 的 信号 ， 这 个 信号 表明 处 理 器 p-1 已 经 执行 了 迭代 [p-1,i,] 。 这 
个 技术 可 以 根据 图 11-51a 和 图 11-51b 中 的 完全 可 交换 循环 分 别 生 成 图 11- 
52a 和 图 11-52b 中 的 代码 。 


一 般 来 说 ， 给 定 k 个 最 外 层 的 完全 可 交换 循环 ， 具 有 下 标 值 (i 
让) 的 欠 代 可 以 执行 且 不 违反 数据 依赖 约束 的 前 提 是 下 列 欠 代 
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己 经 执行 完毕 。 因 此 ， 我 们 可 以 按照 如 下 方法 把 这 个 迭代 空间 的 前 k-1 
个 维度 的 分 划分 配 到 O (nk1) 个 处 理 器 上 。 每 个 处 理 器 负责 一 个 迭代 
的 集合 ， 该 集合 中 迭代 的 下 标 值 在 前 k-1 个 维度 上 相同 ， 而 第 k 个 下 标 值 
则 包括 了 该 下 标的 全 部 可 能 值 。 每 个 处 理 右 顺序 地 执行 第 k 个 循环 中 的 
迭代 。 前 k-1 个 循环 下 标 值 Lpi,py,…,pk1」 所 对 应 的 处 理 器 可 以 执行 第 k 


个 循环 的 第 i 个 迭代 的 前 提 是 它 收 到 了 处 理 器 
[pi-lpzsess Pies] [pi Deopeirlj 
发 出 的 信号 ， 表 明 它 们 已 经 执行 完了 各 自 的 第 k 个 循环 中 的 第 i 个 迭代 。 
波 阵 面 化 


根据 一 个 具有 k 个 最 外 层 完全 可 交换 循环 的 循环 结构 生成 k-1 个 可 并 
行 化 内 层 循环 是 比较 容易 的 。 虽 然 我 们 更 倾 问 于 使 用 流水 线 化 ， 但 为 完 
整 起 见 ， 我 们 仍 在 这 里 给 出 这 个 方法 。 


我 们 使 用 一 个 新 的 下 标 变 量 i 来 分 划一 个 具有 k 个 最 外 层 完 全 可 交换 
循环 的 循环 结构 的 计算 任务 ， 其 中 ji 被 定义 为 这 k 个 可 交换 循环 中 所 有 下 
标的 某 种 组 合 。 比 如 ，i=i+.….+ik 就 是 这 样 的 一 个 组 合 。 


我 们 创建 一 个 最 外 层 的 顺序 循环 ， 访 循环 以 升序 损 历 这 个 ;分 划 ， 
在 各 个 分 划 单 元 中 的 计算 任务 依然 按 以 前 的 顺序 执行 。 每 个 分 划 单 元 中 
的 前 k-1 个 循环 一 定 是 可 并 行 化 的 。 直 观 地 讲 ， 如 果 给 定 一 个 二 维 的 从 
代 空 间 ， 这 个 转换 沿 看 135° 的 斜 线 把 迭代 组 合 起 来 ， 作 为 外 层 循环 的 一 
次 执行 。 这 个 策略 保证 了 在 最 外 层 循环 中 的 各 个 迭代 之 间 没 有 数据 依 


赖 。 

















一 个 深度 为 k 的 完全 可 交换 的 循环 授 套 结构 可 以 在 k 个 维度 上 进行 分 
块 。 我 们 可 以 把 多 个 迭代 的 块 组 合成 为 一 个 单元 ， 而 不 是 根据 最 外 层 或 
者 最 内 层 的 循环 下 标 值 把 迭代 分 配给 处 理 堪 。 分 块 技术 可 以 用 于 增强 数 
据 局 部 性 并 最 小 化 流水 线 的 开销 。 


假设 我 们 有 一 个 二 维 完 全 可 交换 的 循环 铭 套 结构 ， 如 图 11-55a 所 
示 ， 且 我 们 希望 把 这 个 结构 的 计算 任务 分 成 bxb 块 。 分 块 后 的 代码 的 执 
行 顺 序 如 图 11-56 所 示 ， 等 价 的 代码 显示 在 图 11-55b 中 。 

















for (ii = 0; ii<n; i+=b) 
for (jj = 0; jj<n; jj+=b) 
for (i = ii*b; i <= min(ii*b-1, n); i++) 
for (j = ii*b; j <= min(jj*b-1, n); j++) { 
<S> 











2 





a) 一 个 简单 的 循环 嵌 套 结构 b) 这 个 循环 伐 套 结构 的 分 块 版 本 
图 11-55 ”一 个 二 维 循 环 误 套 结构 和 它 的 分 块 版 本 
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图 11-56 在 对 一 个 深度 为 2 的 循环 诺 套 结构 分 块 之 前 和 分 块 之 后 的 执行 顺序 


如 果 我 们 把 每 个 块 分 配给 一 个 处 理 器 ， 那 么 在 同一 个 块 中 从 一 个 迭 
代 到 另 一 个 迭代 的 数据 传递 不 需要 处 理 器 之 间 的 通信 。 我 们 还 可 以 把 块 
的 一 列 分 配给 一 个 处 理 嚣 ， 以 便 加 粗 流水 线 的 粒度 。 请 注意 ， 每 个 处 理 
虱 只 在 块 的 边界 上 和 它 的 前 驱 及 后 继 进行 通信 。 因 此 ， 分 块 的 男 一 个 优 
扩 是 程序 只 需要 在 块 和 它 的 邻居 块 的 边界 上 交换 被 访问 的 数据 。 处 于 块 
内 部 的 数据 仅 由 一 个 处 理 器 处 理 。 


| 现在 我 们 使 用 一个 丰 实 的 数位 算法 Cholesky 分 解 一 一 来 
碗 明 寞 法 11.59 是 如 何在 只 有 流水 线 化 并 行 性 的 情况 下 处 理 单 循环 内 套 
结构 的 。 图 11-57 中 显示 的 代码 实现 了 一 个 O(n3) 的 算法 ， 该 算法 对 一 
个 二 维 数据 数组 进行 运算 。 被 执行 的 迭代 空间 是 一 个 三 角形 的 金字 塔 结 
构 ， 因 为 j 只 会 遍历 到 外 层 循 环 下 标 i 的 值 ， 而 k 只 会 遍历 到 j 的 值 。 这 个 
循环 结构 有 四 个 语句 ， 各 个 语句 都 嵌 套 在 不 同 的 循环 中 。 














for (i = 1; i <= N; i++) { 
for (j = 1; j <= i-1; j++) { 
for (k = 1; k <= j-1; k++) 
X[i,j] = X[i,j] - X[i,k] * X[j,k]; 
Xi I = Ri 2 NL; 


} 
for (m= 1; m <= i-1i; mt++) 

XE LT = WL] 二 其 二 wld 
X[i,i] = sqrt(X[i,i]); 





图 11-57 Cholesky 分 解 


对 这 个 程序 应 用 算法 11.59 可 以 找到 三 个 合法 的 时 间 维 度 。 它 把 所 
有 的 运算 都 众 入 到 一 个 三 维 的 完全 可 交换 的 循环 侍 套 结构 中 去 。 其 中 的 
某 些 运算 在 原 程 序 中 是 众 套 在 深度 为 1 或 2 的 循环 结构 中 的 。 图 11-58 中 
显示 了 得 到 的 代码 和 相应 的 映射 。 




















for (i2 = 1; i2 <= N; i2++) 
for (j2 = 1; j2 <= i2; j2++) + 
/* 处 理 器 (i2,j2) 的 代码 的 开始 */ 
for (k2 = 1; k2 <= i2; k2++) { 


// 映射 : i2 = i, j2 = j, k2=k 
if (j2<i2 && k2<j2) 
X[i2,j2] = X[i2,j2] - X[i2,k2] * X[j2,k2]; 


// 上 映射: i2 = i, j2 = j, k2 = j 
if (j2==k2 && j2<i2) 
X[i2,j2] = X[i2,j2] / X[j2,j2]; 


// 映射 : i2 = i, j2 = i, k2=m 
if (i2==j2 && k2<i2) 
X[i2,i2] = X[i2,i2] - X[i2,k2] * X[i2,k2]; 


// 映射 : i2 = i, j2 = i, k2= i 
if (i2==j2 && j2==k2) 
X[k2,k2] = sqrt (X[k2,k2]); 


3 
/* 处 理 姓 (i2,j2) 的 代码 的 结束 */ 
+ 





图 11-58 ”写成 完全 可 交换 循环 结构 的 图 11-57 的 代码 


代码 生成 例 程 保证 了 运算 的 执行 都 位 于 原来 的 循环 界限 中 ， 以 保证 
新 的 程序 只 执行 原来 代码 中 的 运算 。 我 们 可 以 把 这 个 代码 流水 线 化 ， 方 
法 是 把 这 个 三 维 结构 映射 到 二 维 的 处 理 器 空间 中 。 和 迭 代 “(i2,j2,k2) 被 分 
配给 ID 为 (i2,j2〉 的 处 理 器 。 每 个 处 理 器 执行 循环 下 标 为 k2 的 最 内 层 的 
循环 。 在 它 执行 第 k 个 迭代 之 前 ， 这 个 处 理 器 会 等 待 卫 为 〈i2-1j2) 和 
(i2,j2-1〉 的 处 理 器 发 来 的 信号 。 在 它 执 行 了 它 的 迭代 之 后 ， 它 会 给 处 
理 器 (i2+1,j2)〉 和 (i2,j2+1) 发 出 信和 号。 








11.9.9 ”具有 最 小 同步 量 的 并 行 性 


在 前 面 的 三 节 中 ， 我 们 已 经 描述 了 三 个 功能 强大 的 并 行 化 算法 : 算 
法 11.43 可 以 找 出 所 有 不 需要 同步 的 并 行 性 ， 算 法 11.54 找 出 了 所 有 只 需 
要 固定 多 次 同步 的 并 行 性 ， 而 算法 11.59 找 出 了 所 有 需要 O (Cn) 次 同步 
的 可 流水 线 化 的 并 行 性 ， 其 中 n 是 最 外 层 循 环 的 迭代 数量 。 粗 略 地 说 ， 
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我 们 的 目标 是 尽 可 能 多 地 把 一 个 计算 过 程 并 行 化 ， 同 时 尽量 少 地 引入 同 
步 运算 。 

下 面 的 算法 11.64 从 最 粗糙 的 并 行 性 粒度 开始 ， 找 出 了 一 个 程序 中 
存在 的 所 有 并 行 度 。 在 实践 中 ， 在 为 菜 个 多 处 理 器 系统 并 行 化 一 个 代码 
时 ， 我 们 并 不 需要 利用 所 有 层次 上 的 并 行 性 。 我 们 总 是 利用 最 外 层 的 并 
oe a 0 0 0 0 6 





找 出 一 个 程序 中 存在 的 所 有 并 行 度 ， 同 时 所 有 并 行 性 的 粒 
上 度 孝 及 可 能 地 粗糙 。 


输入 : 一 个 要 进行 并 行 化 的 程序 。 
和 输出: 同一 个 程序 的 并 行 化 版 本 。 
方法 : 完成 下 列 步 又 : 


Wp 0 00 
法 11.43。 


2) 找 出 需要 O (1) 次 同步 运算 的 并 行 性 的 最 大 度数 : 对 步骤 1 中 
找 出 的 所 有 空间 分 划 单 元 应 用 算法 11.54。 《如果 在 步骤 1 中 没有 找到 无 
同步 的 并 行 性 ， 那 么 所 有 的 计算 任务 都 在 同一 个 分 划 单 元 中 。) 


3) 找 出 需要 O (n) 次 同步 运算 的 最 大 并 行 性 度数 。 对 步骤 2 中 找 
到 的 每 个 分 划 单 元 应 用 算法 11.59， 以 找 出 可 流水 线 化 的 并 行 性 。 然 后 
对 分 配给 各 个 处 理 器 的 分 划 单 元 逐个 应 用 算法 11.54。 如 果 前 面 没 有 找 
到 流水 线 化 的 并 行 性 ， 就 对 串 行 循 环 的 循环 体 应 用 算法 11.54。 


4) 在 逐步 增加 同步 度数 的 情况 下 寻找 最 大 的 并 行 性 度数 。 递 归 地 
把 步骤 3 应 用 到 上 一 步 生成 的 各 个 空间 分 划 单 元 中 的 计算 任务 上 。 


现在 让 我 们 回 到 例 11.56。 算 法 11.64 的 步骤 1 和 2 都 没有 找到 并 
行 性 。 也 就 是 说 ， 为 了 并 行 化 这 个 代码 ， 我 们 需要 的 同步 量 大 于 一 个 常 
量 。 在 步骤 3 中 ， 应 用 算法 11.59 确 定 了 只 有 一 个 合法 的 外 层 循 环 ， 这 个 
循环 就 是 图 11-53 中 的 原 代 码 中 的 循环 。 因 此 ， 这 个 循环 不 具有 可 流水 
线 化 的 并 行 性 。 在 步骤 3 的 第 二 部 分 ， 我 们 应 用 算法 11.54 来 并 行 化 内 层 








循环 。 我 们 像 处 理 整 个 程序 那样 来 处 理 一 个 分 划 单 元 中 的 代码 ， 不 同 之 
处 仅 在 于 我 们 像 处 理 符号 常量 那样 处 理 了 分 划 单 元 的 编号 。 在 这 个 例子 
中 ， 我 们 发 现 内 层 循环 是 可 并 行 化 的 ， 因 此 这 个 代码 可 以 使 用 n 个 同步 
栅 障 进行 并 行 化 。 


算法 11.64 找 出 了 一 个 程序 中 在 各 个 同步 层面 上 的 并 行 性 。 这 个 算 
法 优先 求 出 需要 较 少 同步 量 的 并 行 化 方案 ， 但 是 最 少 同步 运算 并 不 表示 
ee 
弱点 。 


考虑 通信 开销 


如 果 没 有 发 现 无 同步 的 并 行 性 ， 算 法 11.64 的 步骤 2 对 每 个 强 连 通 分 
量 独立 地 进行 并 行 化 。 但 是 ， 茶 些 这 样 的 分 量 仍然 可 能 在 无 同步 和 通信 
的 情况 下 被 并 行 化 。 解 决 方法 之 一 是 尽 可 能 地 在 程序 依赖 图 中 共享 大 部 
分 数据 的 子 集 之 间 寻 找 无 同步 的 并 行 性 。 


如 果 强 连通 分 量 之 间 的 通信 是 必须 的 ， 我 们 注意 到 有 些 通信 的 开销 
要 高 过 其 他 通信 的 开销 。 比 如 ， 转 置 一 个 和 矩阵 的 开销 要 比 两 个 相 邻 处 理 
器 之 间 通 信 的 开销 高 得 多 。 假 设 sS; 和 s$， 分 别 是 两 个 分 离 的 强 连通 图 中 的 
语句 ， 它 们 分 别 在 欠 代 ii 和 ji 中 访问 相同 的 数据 。 如 果 我 们 不 能 分 别 为 
语句 s1 和 s, 找 到 分 划 映射 <Cl,clj> 和 <C>,c>> 使 得 














Ci1i+C1-C2ioz-Co=0 
我 们 就 试图 满足 约束 
Cii1+Cc1-Coio-Co<0 
其 中 6 是 一 个 小 的 常量 。 
用 通信 量 交 换 同 步 量 
有 些 时 候 ， 我 们 宁愿 多 进行 一 些 同步 运算 以 降低 通信 和 量 。 例 11.66 
讨论 了 一 个 这 样 的 例子 。 因 此 ， 如 采 我 们 不 能 在 只 允许 相 邻 的 强 连通 分 
量 之 间 进 行 通信 的 情况 下 对 一 个 代码 进行 并 行 化 ， 我 们 将 试图 把 这 个 计 
算 任务 流水 线 化 ， 而 不 是 独立 地 并 行 化 各 个 分 量 。 如 例 11.66 所 示 ， 流 
水 线 化 技术 可 以 被 应 用 到 一 个 循环 序列 中 。 





和 
入 还 葡 套 结构 进行 独立 优化 可 以 在 每 个 嵌 套 结构 中 找到 并 行 性 。 但 
是 ， 这 样 的 方案 要 求 在 循环 之 间 进 行 矩阵 转 置 ， 从 而 出 现 O〈mz) 的 数 
据 流量 。 如 果 我 们 使 用 算法 11.59 来 寻找 可 流水 线 化 的 并 行 性 ， 就 可 以 
把 整个 程序 转换 成 为 一 个 完全 可 交换 的 循环 说 套 结 构 ， 如 图 11-59 所 
示 。 然 后 ， 我 们 可 以 应 用 分 块 技术 来 降低 通信 开销 。 这 个 方案 将 带 来 
O(n) 次 的 同步 ， 但 是 需要 的 通信 量 要 小 很 多 。 








for (j = 0; j < n; j++) 
for (i = 1; i < n+li; i++) { 
i 《了 < 五 ) XLi,jj] = f(X[i,j] + X[i-1,j]) 


if (j > 0) X[i-1,j] = gC(X[i-1,j],X[i-1,j-1]); 
} 





图 11-59 ” 例 11. 498 的 代码 的 一 个 完全 可 交换 循环 瞪 套 结构 
-HH S 
11.9.10”11.9 节 的 练习 


练习 11.9.1: 在 11.9.4 节 中 ， 我 们 讨论 了 使 用 倾斜 的 轴 ， 而 不 是 用 水 
平 轴 或 垂直 轴 来 将 图 11-51 中 的 代码 流水 线 化 的 可 能 性 。 对 于 以 下 度数 
的 斜 线 ， 写 出 和 图 11-52 中 的 循环 类 似 的 代码 : (W135°*，@@120°。 


练习 11.9.2: 如 果 b 能 够 整除 n， 那 么 图 11-55b 可 以 进一步 简化 。 按 
照 这 种 假设 改写 代码 。 


练习 11.9.3: 图 11-60 中 是 一 个 计算 Pascal 三 角形 的 前 100 行 的 程序 。 
i 对 0<j<i<100，P [jj 将 变 成 从 i 个 物体 中 选择 j 个 物体 的 方法 


for (i=0; i<100; i++) { 
P[i,0] = 1; /* si */ 
P[i,i] 1; /* s2 */ 


} 
for (i=2; i<100; i++) 
for (j=1; j<i; j++) 
P[i,j] = P[i-1,j-1] + P[i-1,j]; /* s3 */ 





图 11-60 计算 Pascal 三 角形 
1) 把 这 个 代码 改写 为 单一 的 、 完 全 可 交换 的 循环 肉 套 结构 。 


2) 在 一 个 流水 线 中 使 用 100 个 处 理 器 来 实现 这 个 代码 。 为 每 个 处 理 
器 p 写 出 其 代码 ， 并 指出 必要 的 同步 运算 。 


3) 使 用 边 长 为 10 个 达 代 的 块 改写 这 个 代码 。 因 为 迭代 空间 形成 了 
一 个 三 角形 ， 总 共 只 有 1+2+...+10=55 个 块 。 用 pi1、p2 作 为 参数 来 表示 一 
个 处 理 器 〈plbp>) 的 代码 ， 该 处 理 器 被 分 配给 方向 上 的 第 pi 个 块 和 j 方 
问 上 的 第 p? 个 块 。 


练习 11.9.4: 对 图 11-61 中 的 代码 重复 练习 11.9.3。 但 是 请 注意 ， 这 
个 问题 的 迭代 形成 了 一 个 边 长 为 100 的 三 维 立 方 体 。 因 此 ， 问 题 3 中 的 块 
应 该 是 10x10x10， 且 有 1000 个 块 。 


for (i=0; i<100; 1++) { 
A[i, 0,0] = Bi[i]; /* 
A[i,99,0] = B2[i]; /* 

} 

for (j=1; j<99; j++) { 
AL 0,j,0] = B3[j]; /* 
A[99,j,0] = B4[j]; /* 


} 
for (i=0; i<99; i++) 
for (j=0; j<99; j++) 
for (k=1; k<100; k++) 
AL[i,j,k] = 4*A[i,j,k-1] + A[i-1,j,k-1] + 
ALi+1,j,kE-1] + A[i,j-1,k-1] + 
A[i,j+1,k-1]; /* s5 */ 





图 11-61 练习 11. 94 的 代码 


! 练习 11.9.5: 让 我 们 对 一 个 简单 的 时 间 分 划 约 束 的 例子 应 用 算法 
11.59。 在 下 面 的 内 容 中 假设 癌 量 1 是 (iji) ， 回 量 ij 是 〈izjz) 。 从 技 
术 上 讲 ， 这 两 个 向 量 部 是 转 置 的 。 条 件 计 <,,, is 由 下 列子 句 的 析 取 式 构 
成 : 


(Dij<i,， 或 者 

© i=iy Hji<j; 

其 他 的 等 式 和 不 等 式 是 
2i1+j1-10>0 
i,+2j,-20>0 
i1= jy+j2-50 
j1=j2+40 

最 后 ， 时 间 分 划 不 等 式 如 下 ， 其 中 c、di、ei、c、d 和 e> 为 未 知 量 : 
clil+dljli+el<cziz+d2j2+e2 


1) 对 情况 四 ， 即 ii<i?， 求 解 这 个 时 间 分 划 约 束 。 特 别 地 ， 你 需要 
尽 可 能 地 消除 1 、ji、 ip 和 j， 并 像 算 法 11.59 中 那样 设置 矩阵 D 和 A。 然 
后 对 得 到 的 矩阵 不 等 式 应 用 Farkas 引 理 。 


2) 对 于 情况 外， 即 ij=iy 且 j1<j,。， 重 复 问 题 1。 


11.10 局 部 性 优化 





不 管 一 个 处 理 器 是 不 是 某 个 多 处 理 器 系统 的 一 部 分 ， 它 的 性 能 和 它 
的 高 速 缓存 的 行为 密切 相关 。 高 速 缓存 中 的 脱 靶 可 能 要 花费 几 十 个 时 钟 
周期 ， 因 此 高 速 缓存 的 高 脱 靶 率 会 使 处 理 器 性 能 降低 。 在 带 有 公共 内 存 
总 线 的 多 处 理 器 系统 的 背景 下 ， 对 总 线 的 竞争 会 进一步 加 剧 低劣 的 数据 
局 部 性 所 带 来 的 损失 。 


我 们 将 看 到 ， 即 使 我 们 只 是 和 希望 提高 单 处 理 吉 系统 的 数据 局 部 性 ， 
用 于 并 行 化 的 仿 射 分 划算 法 也 是 有 用 的 。 它 是 一 个 有 效 的 寻找 循环 转换 
机 会 的 工具 。 在 本 节 中 ， 我 们 描述 了 三 种 在 单 处 理 器 系统 和 多 处 理 器 系 
统 中 提高 数据 局 部 性 的 技术 。 


1) 我 们 试图 在 计算 结果 生成 之 后 尽快 地 使 用 它们 ， 以 提高 计算 结 
末 的 时 间 局 部 性 。 提 高 时 间 局 部 性 的 方法 是 把 一 个 计算 任务 分 割 成 为 独 
芯 的 分 划 单 元 ， 并 把 各 个 分 划 单 元 中 具有 依赖 关系 的 运算 紧 靠 在 一 起 执 
行 。 

















2) 数组 收缩 (array contraction ) 技术 降低 了 一 个 数组 的 维度 ， 且 
降低 了 被 访问 内 存 位 置 的 数目 。 如 果 在 任意 给 定时 刻 该 数组 只 有 一 个 位 
置 被 使 用 ， 我 们 束 可 以 应 用 数组 收缩 技术 。 


3) 除了 提高 计算 结果 的 时 间 局 部 性 ， 我 们 也 需要 优化 计算 结果 的 
空间 局 部 性 ， 同 时 优化 只 读数 据 的 时 间 和 空间 局 部 性 。 我 们 可 以 交替 执 
行 多 个 分 划 单 元 ， 而 不 是 一 个 接 一 个 地 执行 它们 。 这 样 做 可 以 使 得 分 划 
单元 之 间 的 复 用 更 加 靠近 。 








11.10.1 计算 结果 数据 的 时 间 局 部 性 


仿 射 分 划算 法 把 所 有 相互 依赖 的 运算 放 到 一 起 。 通 过 串 行 执行 这 些 
分 划 ， 我 们 提高 了 计算 结果 数据 的 时 间 局 部 性 。 让 我 们 回顾 一 下 11.7.1 
市 中 讨论 的 多 网 格 的 例子 。 应 用 算法 11.43 来 并 行 化 图 11-23 中 的 代码 ， 
找到 了 2 度 的 并 行 性 。 图 11-24 中 的 代码 包含 两 个 外 层 循环 ， 它 们 顺序 通 


历 了 各 个 独立 的 分 划 单 元 。 转 换 得 到 的 这 个 代码 具有 较 好 的 局 部 性 ， 因 
为 计算 得 到 的 结果 立刻 就 在 同一 个 迭代 中 使 用 。 


因此 ， 即 使 我 们 的 目标 是 优化 顺序 执行 ， 使 用 并 行 化 技术 找 出 这 些 
相关 的 运算 并 把 它们 放 到 一 起 也 是 很 有 好 处 的 。 我 们 在 这 里 使 用 的 算法 
和 算法 11.64 类 似 ， 它 从 最 外 层 循环 开始 寻找 所 有 的 并 行 性 粒度 。 如 
11.9.9 市 中 讨论 的 ， 如 果 我 们 在 每 个 层次 上 都 不 能 找到 无 同步 的 并 行 
性 ， 这 个 算法 就 对 各 个 强 连通 分 量 单独 进行 并 行 化 。 这 个 并 行 化 方法 和 
常会 增加 通信 和 量 。 因 此 ， 如 果 被 单独 并 行 化 的 强 连 通 分 量 之 间 存 在 复 
用 ， 我 们 就 尽 可 能 地 把 它们 组 合 起 来 。 








11.10.2 ”数组 收缩 


数组 收缩 优化 给 出 了 另 一 个 在 存储 和 并 行 性 之 间 进 行 折 瑞 处 理 的 例 
子 。 这 种 折 训 方案 首先 在 10.2.3 节 中 讨论 指令 级 并 行 性 时 引入 。 使 用 更 
多 寄存 器 可 以 得 到 更 大 的 指令 级 并 行 性 。 同 样 ， 使 用 更 多 的 内 存 可 以 得 
到 更 多 的 循环 级 并 行 性 。 如 11.7.1 市 中 的 多 网 格 例子 所 示 ， 把 一 个 临时 
的 标量 变量 变 成 一 个 数组 就 可 以 允许 不 同 的 迭代 使 用 这 个 临时 变量 的 不 
同 实 例 ， 也 就 允许 它们 同时 执行 。 反 过 来 ， 如 果 我 们 有 一 个 每 次 只 操作 
一 个 数组 元 素 的 顺序 执行 过 程 ， 就 可 以 收缩 这 个 数组 ， 把 它 蔡 换 为 一 个 
标量 ， 并 让 各 个 迭代 使 用 同一 个 位 置 。 


在 图 11-24 中 显示 的 转换 得 到 的 多 网 格 程序 中 ， 内 层 循 环 的 每 个 迭 
代 生 成 并 消耗 了 AP、AM、T 以 及 D 的 一 行 中 的 不 同 元素 。 如 果 这 些 数 
组 不 会 在 这 个 代码 段 之 外 使 用 ， 这 些 迭 代 就 可 以 串 行 地 复 用 同一 个 数据 
存储 位 置 ， 而 不 是 把 这 些 值 分 别 存 放 在 不 同 的 元 素 中 或 者 不 同行 中 。 图 
11-62 显 示 了 减少 这 些 数组 的 维度 之 后 的 结果 。 这 个 代码 比 原来 的 代码 
运行 得 更 快 ， 因 为 它 读 写 的 数据 更 少 。 特 别 是 当 一 个 数组 被 归 约 成 一 个 
标量 变量 时 ， 我 们 可 以 把 这 个 变量 放 在 一 个 寄存 器 中 ， 并 完全 消除 了 对 
内 存 访问 的 需求 。 











for (j = 2, j <= j 工 ，j++) 
for (i = 2, i <= 1i1，i++) { 

AP 二 

T = 1.0/(1.0 +AP) ; 

D[2] = T*AP; 
DW[1,2,j,i] = T*DW[1,2,j,il]; 
for (k=3, k <= kl-1, k++) { 

= AP; 


.. .AP -AM*D[k-1]...; 
= T*AP; 
DW[1,k,j,i] = T*(DW[1,k,j,il+DW[1,k-1,j,i])...; 


for (k=kl-1, k>=2, k--) 
DW[1i,k,j,i] = DW[1i,k,j,i] +D[k]*DW[1,k+1,j,i]; 








图 11-62 ”对 图 11-23 进 行 分 划 《图 11-24) 和 数组 收缩 之 后 的 得 到 的 代码 


因为 使 用 的 内 存 更 少 ， 所 以 可 用 的 并 行 性 也 变 少 了 。 转 换 得 到 的 图 
11-62 中 的 代码 的 兴 代 之 间 有 了 数据 依赖 关系 ， 因 此 不 能 再 并 行 执行 。 
为 了 把 代码 在 P 个 处 理 器 上 并 行 执 行 ， 我 们 可 以 把 每 个 标量 变量 扩展 出 P 
个 副本 ， 并 让 每 个 处 理 絮 访问 自己 的 副本 。 这 样 ， 内 存 扩展 的 数量 就 和 
被 利用 的 并 行 性 直接 相关 了 。 


通常 ， 要 寻找 数组 收缩 机 会 的 理由 有 三 个 : 


1) 用 于 科学 应 用 的 高 级 程序 设计 语言 (比如 Matlab 和 Fortran90) 
文 持 数 组 层次 的 运算 。 数 组 运算 的 每 个 子 表达 式 都 生成 一 个 临时 数组 。 
因为 这 些 数 组 可 能 很 大 ， 每 个 数组 运算 ， 比 如 乘法 或 加 法 ， 需 要 读 写 很 
多 内 存 位 置 ， 同 时 对 算术 运算 的 需求 相对 较 少 。 因 此 ， 我 们 对 运算 进行 
重新 排序 以 便 数 据 被 生成 后 立刻 就 被 消耗 挥 ， 同 时 也 就 把 这 些 数组 收缩 
成 了 标量 变量 。 这 样 的 处 理 是 很 重要 的 。 


2) 在 20 世 纪 80 和 90 年 代 构造 的 超级 计算 机 都 是 回 量 机 ， 因 此 那 时 
开发 的 很 多 科学 计算 应 用 都 是 针对 这 样 的 机 器 进行 优化 的 。 虽 然 存在 同 
量化 编译 器 ， 但 很 多 程序 员 依然 把 他 们 的 代码 写成 每 次 完成 一 次 网 量 运 
算 的 方式 。 本 章 中 多 网 格 代码 的 例子 束 是 这 种 风格 的 程序 的 例子 。 


3) 收缩 优化 的 机 会 也 会 由 编译 器 引入 。 如 多 重 网 格 例子 中 的 变量 T 
































所 演示 的 ， 一 个 编译 器 可 能 会 扩展 数组 以 提高 并 行 性 。 如 果 这 种 空间 扩 
展 是 不 必要 的 ， 那 么 我 们 就 必须 对 这 个 数组 进行 收缩 处 理 。 


数组 表达 式 Z=W+X+Y 被 翻译 成 为 


for (i=0; i<n; i++) T[i] = WLi] + X[i]; 
for (i=0; i<n; i++) 2Z[i] = T[i] + Y[i]; 


把 这 个 代码 改写 成 
for (i=0; i<n; i++) { T = W[i] + X[i]; Z[i] = T + Y[i] } 

可 以 极 大 地 提高 代码 的 运行 速度 。 当 然 ， 在 C 代 码 的 层次 上 我 们 甚至 不 
需要 使 用 临时 变量 T， 而 是 可 以 把 对 Z [Li] 的 赋值 语句 写成 单个 语句 。 
但 这 里 我 们 正 试图 对 中 间 代 码 层 次 进行 建 模 。 在 这 个 层次 上 一 个 向 量 处 
理 器 将 会 处 理 这 些 运 算 。 
数组 收缩。 

输入 : 一 个 由 算法 11.64 转 换 得 到 的 程序 。 

输出 : 一 个 等 价 的 程序 ， 但 降低 了 数组 的 维度 。 

方法 : 一 个 数组 的 维度 可 以 被 收缩 为 一 个 元 际 的 条 件 如 下 : 

1) 每 个 独立 的 分 划 单 元 只 使 用 这 个 数组 的 一 个 元 素 。 

2) 这 个 元 素 在 分 划 单 元 入 口 处 的 值 没 有 被 这 个 分 划 单 元 使 用 ， 且 

3) 这 个 元 素 的 值 在 这 个 单元 的 出 口 处 不 活跃 。 


找 出 可 收缩 的 维度 ， 也 就 是 满足 上 面 三 个 条 件 的 维度 ， 并 把 它们 从 
换 为 单个 元 系 。 


算法 11.68 假 设 这 个 程序 首先 由 算法 11.64 进 行 转换 ， 把 所 有 相互 依 
赖 的 运算 都 分 配 到 同一 个 分 划 单 元 中 ， 并 顺序 地 执行 这 些 分 划 单 元 。 它 
找 出 了 其 元 素 在 不 同 迭 代 中 活跃 范围 不 相交 的 数组 变量 。 如 果 这 些 变量 
在 循环 之 后 不 再 活跃 ， 它 就 可 以 收缩 这 个 数组 并 让 处 理 器 在 同一 个 标量 
位 置 上 进行 运算 。 在 数组 收缩 之 后 ， 可 能 还 有 必要 选择 性 地 扩展 一 些 数 




















组 ， 以 应 对 并 行 性 和 其 他 局 部 性 优化 问题 。 


这 里 要 进行 的 活跃 性 分 析 比 9.2.5 市 中 所 描述 的 分 析 更 加 复杂 。 如 果 
数组 伞 定 义 为 一 个 全 局 变量 ， 或 者 它 是 一 个 参数 ， 我 们 就 需要 使 用 过 程 
间 分 析 技 术 来 保证 不 使 用 出 口 处 的 值 。 不 仅 如 些 ， 我 们 还 需要 计算 单个 
ee 

` 够 精确 。 











11.10.3 ”分 划 单 元 的 交织 


一 个 循环 中 的 不 同 分 划 单 元 经 常 读 取 同样 的 数据 ， 或 者 读 写 同样 的 
高 速 缓存 线 。 在 本 节 和 接 下 来 的 两 节 中 ， 我 们 将 讨论 当 发 现 了 分 划 单 元 
之 间 的 复 用 时 如 何 优化 局 部 性 。 


最 内 层 块 的 复 用 


我 们 采用 一 个 简单 的 模型 ， 即 如 果 一 个 数据 在 少量 欠 代 之 后 就 被 复 
用 ， 那 么 就 可 以 在 高 速 缓存 中 找到 这 个 数据 。 如 条 最 内 层 循 环 具 有 很 大 
或 未 知 的 界限 ， 那 么 只 有 最 内 层 循环 的 达 代 之 间 的 复 用 才能 够 带 来 更 好 
的 局 部 性 。 分 块 处 理 过 程 创建 了 具有 较 小 且 已 知 界 限 的 内 层 循环 ， 使 得 
我 们 可 以 充分 利用 整个 计算 块 之 内 或 块 之 间 的 复 用 。 因 此 ， 分 块 技术 具 
有 促进 更 多 维度 复 用 的 作用 。 


考虑 图 11-5 中 显示 的 矩阵 乘法 代码 以 及 图 11-7 中 该 代码 的 分 

。 拢 阵 乘 法 在 它 的 三 维 迭 代 空 间 中 的 每 一 个 维度 上 都 有 复 用 。 在 

原来 的 代码 中 ， 最 内 层 循环 具有 n 个 达 代 ， 其 中 n 是 未 知 的 ， 且 可 能 很 

大 。 我 们 的 简单 模型 假设 只 有 路 越 最 内 层 循环 迭代 的 被 复 用 数据 才 可 以 
在 高 速 缓存 中 找到 。 


在 分 块 版 本 中 ， 最 内 层 的 三 个 循环 执行 了 一 个 三 维 的 计算 任务 块 。 
这 个 三 维 块 的 每 条 边 长 部 是 B 个 述 代 。 这 个 块 的 大 小 是 由 编译 器 选择 
的 。 这 个 大 小 必须 足够 小 ， 使 得 在 计算 分 块 时 读 写 的 所 有 融 速 缓存 线 能 
够 一 起 放 到 高 速 缓存 中 。 因 此 ， 路 越 目 外 而 内 的 第 三 层 循环 的 迭代 的 复 
用 数据 可 以 在 高 速 缓存 中 找到 。 


我 们 把 具有 较 小 且 已 知 界限 的 最 内 层 循环 集合 称 为 最 内 层 分 块 

















(innermost block) 。 如 果 有 可 能 ， 我 们 期 望 最 内 层 块 包含 所 有 可 能 带 
有 数据 复 用 的 迭代 空间 的 维度 。 把 分 块 边 长 最 大 化 并 不 重要 。 以 下 阵 乘 
法 为 例 ， 三 维 分 块 技 术 把 对 每 个 矩阵 的 数据 访问 量 降 低 了 B“ 倍 。 如 果 存 
在 数据 复 用 ， 使 用 高 维度 小 边 长 的 分 块 要 比 低 维度 大 边 长 的 分 块 更 好 。 


我 们 可 以 对 具有 复 用 关系 的 循环 进行 分 央 ， 从 而 优化 最 内 层 完 全 可 
交换 循环 租 套 结构 的 局 部 性 。 我 们 也 可 以 把 分 块 概念 演化 ， 以 利用 在 较 
外 层 并 行 循环 的 迭代 之 间 找 到 的 复 用 。 请 注意 ， 分 块 技术 主要 是 交错 地 
执行 内 层 循环 的 少量 实例 。 在 矩阵 乘法 中 ， 最 内 层 循环 的 每 个 实例 计算 
出 结果 数组 的 一 个 元 素 ， 总 共有 mm 个 这 样 的 元 素 。 分 块 技术 把 一 个 块 的 
实例 执行 交织 起 来 ， 每 次 计算 每 个 实例 中 的 B 个 达 代 。 类 似 地 ， 我 们 可 
以 把 并 行 循环 中 的 友 代 交 葵 执行 ， 以 利用 它们 之 间 的 数据 复 用 。 


下 面 我 们 定义 了 两 个 基本 方法 ， 它 们 可 以 降低 跨越 达 代 的 复 用 之 间 
的 距离 。 我 们 从 最 外 层 循环 开始 反复 应 用 这 两 个 基本 方法 ， 直 到 所 有 的 
复 用 都 被 移动 到 最 内 层 块 的 相 邻 位 置 上 。 


在 一 个 并 行 循环 中 交织 内 层 循环 


考虑 一 个 外 层 可 并 行 化 循环 包含 一 个 内 层 循环 的 情况 。 为 了 利用 外 
层 循 环 迭 代 之 间 的 数据 复 用 ， 我 们 把 固定 多 个 内 层 循环 的 实例 交织 在 一 
起 执行 ， 如 图 11-63 所 示 。 通 过 创建 二 维 内 层 分 块 ， 这 个 转换 降低 了 外 
层 循 环 的 连续 迭代 之 间 的 数据 复 用 之 间 的 距离 。 














for (ii=0; ii<n; ii+=4) 
for (j=0; j<n; j++) 
for (i=ii; i<min(n, ii+4); i++=4) 
<S> 








a) 源 程序 b) 转换 得 到 的 代码 
图 11-63 ”把 内 层 循环 的 4 个 实例 交织 执行 


把 一 个 循环 


for (i=0; i<n; i++) 
<S> 


变 成 


for (ii=0; ii<n; ii+=4) 
for (i=ii; ii<min(n, ii+4); ii+=4) 
<S> 


的 步 又 称 为 条 状 挖掘 (stripmining) 。 当 图 11-63 中 的 外 层 循环 的 界限 较 
DN 
两 个 循环 。 


交织 执行 一 个 并 行 循环 中 语句 


考虑 一 个 可 并 行 化 循环 包含 一 个 语句 序列 s1,s2,…,sm 的 情况 。 如 果 
其 中 的 一 些 语 句 本 身 也 是 循环 ， 那 么 连续 运 代 的 语句 之 间 可 能 还 是 相隔 
了 很 多 运算 。 我 们 可 以 使 用 交织 运行 这 些 语句 的 方法 来 利用 迭代 之 间 的 
数据 复 用 ， 如 图 11-64 所 示 。 这 个 转换 在 不 同 的 语句 之 间 分 布 那些 经 过 
本条 状 挖掘 的 循环 。 如 果 外 层 循环 只 有 少量 的 固定 多 个 达 代 ， 我 们 不 需 
要 对 循环 进行 条 状 挖掘 ， 而 是 直接 在 各 个 语句 上 分 布 原来 的 循环 。 








for (ii=0; ii<n; ii+=4) { 


for (i=ii; i<min(n,ii+4); i++) 
for (i=0; i<n; i++) { <S1> 
<S1> for (i=ii; i<min(n,ii+4); i++) 
<S2> <S2> 











a) 源 程 序 b) 转换 后 的 代码 
图 11-64 交织 语句 的 转换 


我 们 使 用 si (j)〉 来 表示 语句 sj 在 第 j 个 达 代 中 的 运行 。 代 码 的 执行 不 


是 按照 图 11-65a 中 显示 的 原 执 行 顺序 ， 而 是 按照 图 11-65b 中 显示 的 顺序 
执行 。 





s1 (0), s1 (1), s1 (2), s1 (3)， 
S2 (0)， S2 (1)， $2 (2), S2 (3), 


Rs ‘(0), sm(1), SO Sm(3), 
s1 (4), s1 (5)，s1 (6), s1 (7), 
s2 (4), s2 (5), s2 (6), s2 (7), 


a 中 
一 
“一 一 一 一 一 一 一 一 


Sm (4), sm(5), sm(6), sm(7), 











a) 原来 的 顺序 b) 转换 得 到 的 顺序 


图 11-65 “分 布 一 个 经 过 条 状 挖掘 的 循环 


Wn 我 们 现在 回 到 多 网 格 的 例子 ， 说 明 如 何 利用 外 层 并 行 循环 的 
之 间 的 数据 复 用 。 我 们 观察 到 ， 图 11-62 的 代码 的 最 内 层 循环 中 的 

引用 DW [Loji 、DW [1,k-1,j,i] 和 DW [1,k+1,j,i] 的 空间 局 部 性 很 
差 。 根 据 11.5 节 中 讨论 的 复 用 分 析 可 知 ， 下 标 变量 为 i 的 循环 具有 空间 局 
部 性 ， 而 下 标 为 k 的 循环 具有 组 复 用 性 。 下 标 为 k 的 循环 已 经 是 最 内 层 特 
环 了 ， 因 此 我 们 感 兴 趣 的 是 交织 执行 来 自 一 个 具有 连续 i 值 的 分 划 块 中 

的 对 DW 的 运算 。 


我 们 应 用 这 个 转换 来 交织 这 个 循环 中 的 语句 ， 得 到 图 11-66 中 的 代 
码 ， 然 后 应 用 这 个 转换 来 交织 内 层 循 环 ， 得 到 图 11-67 中 的 代码 。 请 注 
意 ， 当 我 们 把 来 自 下 标 为 i 的 循环 的 B 个 迭代 交错 执行 时 ， 我 们 需要 把 变 
量 AP、AM、T 扩 展 为 数组 ， 以 便 一 次 存放 B 个 结果 。 

















for (j = 2, j <= jl1, j++) 
for (ii = 2, ii <= il1, ii+=b) { 
for (i = ii; i <= min(ii+b-1,il); i++) { 


ib = i-ii+1; 

AP [ib] 二 

下 = 1.0/(1.0 +AP[ib]); 
DT2;1B] = T*AP[ib]; 


DW[1,2,j,i] = T*DW[1,2,j,i]; 

} 

for (i = ii; i <= min(ii+b-1,il); i++) { 
for (k=3, k <= kl-1, k++) 


ib = i-ii+l; 

AM = AP[ib] ; 

AP[ib] 和 

于 = ...AP[ib]-AM*D[ib ,k-1] ...; 
D[ib,k] = T*AP; 

DW[i,k,j,i] = T*(DW[1,k,j,i]+DW[i,k-1,j,i])...; 


for (i = ii; i <= min(ii+b-1,il); i++) 
for (k=kl-1, k>=2, k--) 1 
DW[1,k,j,i] = DW[i,k,j,i] +D[iw,k]*DW[1,k+1,j,i]; 
/* Ends code to be executed by processor (j,i) */ 


} 








图 11-66 ”对 图 11-23 的 代码 进行 分 划 、 数 组 收缩 、 内 层 循环 交错 和 分 块 后 所 得 的 部 分 代码 





for (j = 2, j <= j1，j++) 
for (ii = 2, ii <= il, ii+=b) { 
for (i = ii; i <= min(ii+b-1,il); i++) { 


ib = i-iitl; 
AP [ib] = ...; 

T = 1.0/(1.0 +AP[ib]); 
D[2, ib] = T*AP[ib]; 
DW[1,2,j,i] = T*DW[1,2,j,i]; 


for (k=3, k <= kl-1, k++) 
for (i = ii; i <= min(ii+b-1,il); i++) { 


ib = 11-1ii+1; 

AM = AP[ib]; 

AP [ib] 全 各 

证 = ...AP[ib]-AM*D[ib,k-1]...; 
D[ib,k] = T*AP; 

DW[1,k,j,i] = T*(DW[1,k,j,i]+DW[i,k-1,j,i])...; 


} 


for (k=kl-1, k>=2, k--) { 
for (i = ii; i <= min(ii+b-1,il); i++) 
DW[1,k,j,i] = DWI1,k,j,i +D[iw,k]*DW[1,k+1,j,i]; 
/* Ends code to be executed by processor (j,i) */ 








图 11-67 对 图 11-23 的 代码 进行 分 刘 、 数 组 收缩 和 分 块 后 所 得 的 部 分 代码 
11.10.4 合成 
算法 11.71 对 一 个 单 处 理 器 系统 的 局 部 性 进行 了 优化 ， 而 算法 11.72 
则 对 一 个 多 处 理 器 系统 的 并 行 性 和 局 部 性 进行 了 优化 。 
ER 在 一 个 单 处 理 器 系统 上 优化 数据 局 部 性 。 
输入 : 一 个 带 有 仿 射 数组 访问 的 程序 。 
输出 :一 个 最 大 化 数据 局 部 性 的 等 价 程序 。 
方法 : 执行 下 列 步 又 : 
1) 应 用 算法 11.64 来 优化 计算 结果 的 时 间 局 部 性 。 


2) 应 用 算法 11.68 在 可 能 的 时 候 收 缩 数 组 。 
3) 利用 11.5 节 中 描述 的 技术 ， 确 定 可 能 共享 相同 数据 或 高 速 缓存 
We 


4) 对 每 个 市 有 数据 复 用 的 外 层 并 行 循环 ， 重 复 使 用 基本 的 交织 方 
法 ， 把 一 个 迭代 分 块 移动 到 最 内 层 块 中 。 


5) 对 位 于 那些 带 有 复 用 的 最 内 层 的 完全 可 交换 循环 中 的 维度 的 子 
集 应 用 分 块 技术 。 


6) 对 外 层 完全 可 交换 循环 姐 套 结构 进行 分 块 ， 其 目的 是 利用 内 存 
层次 结构 中 的 更 高 层 存储 设备 ， 比 如 第 三 层 高 速 缓存 或 物理 内 存 。 


7) 在 必要 的 地 方 按照 块 的 边 长 扩展 标量 或 者 数组 。 
针对 多 处 理 器 系统 优化 并 行 性 和 数据 局 部 性 。 
输入 : 一 个 带 有 仿 射 数组 访问 的 程序 。 
输出 :一 个 最 大 化 并 行 性 和 数据 局 部 性 的 等 价 程序 。 
方法 : 执行 下 列 步 又 : 


a 1) 使 用 算法 11.64 对 这 个 程序 进行 并 行 化 ， 并 创建 一 个 SPMD 程 
了 。 


2) 对 步骤 1 中 生成 的 SPMD 程 序 应 用 算法 11.71， 以 优化 它 的 局 部 
性 。 


























11.10.5 11.10 节 的 练习 


练习 11.10.1: 对 下 面 的 癌 量 运算 进行 数组 收缩 变换 : 


for (i=0; i<n; i++) T[i] = A[i] * B[i]; 
for (i=0; i<n; i++) D[i] = T[i] + C[i]; 


练习 11.10.2: 对 下 面 的 同 量 运 算 进 行 数组 收缩 变换 : 


for (i=0; i<n; i++) T[i] 
for (i=0; i<n; i++) S[i] 
for (i=0; i<n; i++) EL[Lil] 


A[i] + BI[i]; 
Cr[i] + DI[i]; 
Ti 六 澡 [L] 


练习 11.10.3: 以 10 为 宽度 对 下 面 的 外 层 循 环 进行 条 状 挖掘 : 


for (i=n-1; i>=0; i--) 
for (j=0; j<n; j++) 


11.11 念 射 转换 的 其 他 用 途 


至 今 为 止 ， 我 们 的 注意 力 都 集中 在 共享 内 存 的 计算 机 体系 结构 上 ， 
但 是 仿 射 循环 转换 的 理论 还 有 很 多 其 他 的 应 用 。 我 们 可 以 把 仿 射 转换 应 
用 到 其 他 形式 的 并 行 性 上 ， 包 括 分 布 式 内 存 计 算 机 、 向 量 指令 、 
SIMD (Single Instruction Multiple Data， 单 指令 多 数据 ) 指令 以 及 多 指 
令 发 送 计算 机 等 。 本 章 中 介绍 的 复 用 分 析 技 术 也 可 以 用 于 数据 预 取 
Cprefetching) 。 数 据 预 取 是 一 个 可 以 提高 内 存 性 能 的 有 效 技术 。 








11.11.1 分 布 式 内 存 计算 机 





在 分 布 式 内 存 计 算 机 中 ， 处 理 器 通过 发 送 消息 和 其 他 处 理 需 进行 通 
信 。 对 于 这 类 机 器 ， 给 各 个 处 理 露 分配 大 型 的 、 独 立 的 计算 单元 显得 更 
加 重要 。 仿 射 分 划算 法 可 以 生成 这 样 的 单元 。 除 了 计算 任务 的 分 划 ， 还 
存在 其 他 一 些 编译 问题 需要 处 理 : 


1) 数据 分 配 。 如 果 处 理 器 使 用 的 是 一 个 数组 的 不 同 部 分 ， 每 一 个 
处 理 需 只 需要 分 配 足 够 的 空间 以 存放 各 目 使 用 的 部 分 。 我 们 可 以 使 用 投 
影 的 方式 来 决定 每 个 处 理 器 使 用 数组 的 哪个 部 分 。 在 决定 数据 分 配 时 ， 
输入 是 一 个 线性 不 等 式 系 统 ， 该 系统 表示 循环 界限 ， 数 组 访问 函数 ， 以 
及 把 友 代 映射 到 处 理 器 ID 的 仿 射 分 划 。 我 们 通过 投影 消除 循环 下 标 ， 并 
找 出 每 个 处 理 器 ID 所 使 用 的 数组 位 置 。 


2) 通信 代码 。 我 们 需要 明确 生成 癌 其 他 处 理 吉 发 送 以 及 从 其 他 处 
理 需 接收 数据 的 代码 。 在 每 个 同步 点 上 ， 


QD 确定 存放 在 茶 个 处 理 器 上 且 其 他 处 理 器 需要 使 用 的 数据 。 


生成 具有 如 下 功能 的 代码 : 找 出 所 有 将 被 发 送 的 数据 并 把 它们 
打包 放 到 一 个 缓冲 区 中 。 


G@) 类 似 地 ， 确 定 这 个 处 理 器 需要 的 数据 ， 解 开 接 收 到 的 消息 的 数 
据 包 ， 把 数据 移动 到 适当 的 内 存 位 置 。 











如 果 所 有 的 访问 都 是 仿 射 的 ， 那 么 这 些 任 务 仍然 可 以 由 编译 器 使 用 
仿 射 框架 来 完成 。 


3) 优化 。 并 不 是 所 有 的 通信 都 必须 在 同步 点 上 进行 。 比 较 好 的 做 
法 是 每 个 处 理 器 在 数据 可 用 时 立刻 发 送 数据 ， 而 每 个 处 理 器 只 有 在 需要 
数据 时 才 开 始 等 等。 必须 对 这 个 优化 和 男 一 个 目标 ( 即 不 能 生成 太 多 消 
恩 ) 加 以 权衡 ， 因 为 处 理 每 个 消 恩 的 开销 都 比较 大 。 


这 里 描述 的 技术 还 有 其 他 用 途 。 比 如 ， 一 个 专用 的 嵌入 式 系统 可 能 
使 用 协 处 理 器 来 减轻 某 些 计算 负担 。 包 入 式 系统 也 可 能 使 用 一 个 独立 的 
控制 器 把 数据 加 载 进 高 速 缓存 或 其 他 数据 缓冲 区 ， 或 从 中 印 载 ， 而 不 是 
自己 要 求 把 数据 调 入 高 速 缓存 ， 在 独立 控制 器 调动 数据 时 ， 处 理 器 可 同 
时 在 其 他 数据 上 执行 运算 。 在 这 些 情况 下 ， 我 们 可 以 使 用 类 似 的 技术 来 
生成 移动 数据 的 代码 。 





11.11.2 ”多 指令 友 送 人 处理 器 


我 们 也 可 以 使 用 仿 射 循环 转换 来 优化 多 指令 发 送 计 算 机 的 性 能 。 
10.5 市 讨论 过 ， 一 个 软件 流水 线 化 循环 的 性 能 受到 两 个 因素 的 限制 : 先 
后 关系 约束 中 的 环 ， 以 及 对 关键 资源 的 使 用 。 通 过 改变 最 内 层 循环 的 组 
成 ， 我 们 可 以 改进 这 些 限制 。 


首先 ， 我 们 可 以 使 用 循环 转换 来 创立 最 内 层 的 可 并 行 化 循环 ， 从 而 
完全 消除 先后 关系 约束 中 的 环 。 假 设 一 个 程序 有 两 个 循环 ， 其 中 的 外 层 
循环 是 可 并 行 化 的 ， 而 内 层 循环 不 可 并 行 化 。 我 们 可 以 交换 这 两 个 循 
环 ， 使 得 内 层 循 环 变 成 可 并 行 化 的 ， 从 而 创造 出 更 多 的 指令 级 并 行 化 机 
会 。 请 注意 ， 我 们 并 不 要 求 最 内 层 循环 的 友 代 之 间 一 定 是 完全 可 并 行 化 
的 。 只 要 其 依赖 关系 所 确定 的 环 短 到 可 以 充分 利用 硬件 资源 束 足 够 了 。 


我 们 也 可 以 通过 改进 一 个 循环 中 资源 使 用 的 平衡 性 来 放松 因 资 源 使 
用 而 引起 的 限制 。 假 设 一 个 循环 只 使 用 加 法 器 ， 而 另 一 个 只 使 用 乘法 
项 。 假 设 一 个 循环 因为 内 存 而 受到 制约 ， 必 一 个 循环 因为 计算 量 而 受到 
制约 。 比 较 好 的 做 法 是 把 这 些 例子 中 的 循环 对 融合 到 一 起 ， 以 便 同时 充 
分 利用 所 有 的 功能 单元 。 

















11.11.3 ”向 量 和 SIMD 指 令 


除了 多 指令 问题 之 外 ， 还 有 其 他 两 种 重要 的 指令 级 并 行 性 : 向 量 和 
SIMD 运 算 。 在 这 两 种 情况 下 ， 发 送 一 个 指令 可 以 对 一 个 数据 同 量 的 所 
有 元 素 进 行 相 同 运 算 。 


前 面 提 到 过 ， 很 多 早期 的 超级 计算 机 使 用 了 回 量 指令 。 同 量 运算 以 
流水 线 化 的 方式 执行 ， 该 同 量 的 元 系 被 串 行 获取 ， 对 不 同 元 系 的 计算 相 
互 重 登 。 在 先进 的 辐 量 计算 机 中 ， 回 量 运算 可 以 链接 起 来 : 当 生 成 结果 
癌 量 的 元 素 时 ， 它 们 立刻 被 另 一 个 同 量 指令 的 运算 消耗 挤 ， 不 需要 等 符 
所 有 的 结果 都 计算 完成 。 不 仅 如 此 ， 在 具有 散播 /收集 〈scattergather ) 
人 硬件 的 先进 计算 机 中 ， 疝 量 的 元 素 不 要 求 是 连续 的 ， 可 以 用 一 个 下 标 问 
量 确 定 这 些 元 素 该 放 在 哪里 。 


SIMD 指 令 指定 了 对 连续 内 存 位 置 执 行 的 相同 运算 。 这 些 指令 从 内 
存 中 并 行 加 载 数据 ， 把 它们 存放 在 宽 寄 存 嚣 中， 并 使 用 并 行 硬 件 来 计算 
它们 。 很 多 媒体 、 图 形 和 数字 信号 处 理应 用 可 以 利用 这 些 运 算 。 低 端 媒 
体 处 理 器 只 需要 一 次 发 射 一 个 SIMD 指 令 就 可 以 获得 指令 级 并 行 性 。 高 
端 处 理 器 可 以 把 SIMD 和 多 指令 发 射 结合 起 来 以 获取 更 好 的 性 能 。 


SIMD 及 回 量 指令 生成 和 数据 局 部 性 优化 之 间 上 共有 很 多 相似 性 。 当 
我 们 找到 在 连续 内 存 位 置 上 运算 的 独立 分 划 单 元 时 ， 就 对 这 些 欠 代 进行 
条 状 挖掘， 并 把 最 内 层 循环 中 的 运算 交织 起 来 。 


生成 SIMD 指 令 有 两 个 难点 。 首 先 ， 有 些 机 器 要 求 从 内 存 中 获取 的 
SIMD 数 据 是 位 对 齐 的 。 比 如 ， 它 们 可 能 要 求 将 256 字 节 的 SIMD 运 算 分 
量 放 在 为 256 的 倍数 的 地 址 上。 如果 源 循环 只 在 一 个 数据 数组 上 运算 ， 
我 们 可 以 生成 一 个 主 循环 来 处 理 对 齐 的 数据 ， 而 这 个 循环 的 前 面 和 后 面 
都 有 附加 的 代码 来 计算 边界 上 的 元 素 。 但 是 对 于 在 多 个 数组 上 运算 的 循 
环 ， 就 有 可 能 无 法 同时 对 齐 所 有 的 数据 。 第 二 ， 一 个 循环 的 连续 友 代 所 
使 用 的 数据 可 能 不 是 连续 的 。 这 种 例子 包括 很 多 重要 的 数字 信号 处 理 的 
算法 ， 比 如 Viterbi 解 码 器 和 快速 傅 里 叶 变 换 。 要 利用 SIMD 指 令 的 话 ， 
有 可 能 需要 一 些 额外 的 用 于 移动 数据 的 指令 。 





















































11.11.4 数据 预 取 


没有 哪个 数据 局 部 性 优化 方法 可 以 消除 所 有 的 内 存 访问 。 首 先 ， 第 
一 次 使 用 的 数据 必须 从 内 存 中 获取 。 为 了 隐藏 内 存 访问 的 延 时 ， 预 取 指 
令 〈prefetch instruction) 被 很 多 高 性 能 处 理 器 采用 。 数 据 预 取 指令 被 用 
来 癌 处 理 器 指明 某 些 数据 有 可 能 很 快 就 会 被 用 到 ， 因 此 如 有 果 它 现在 还 没 
有 在 高 速 缓存 中 ， 期 望 能 把 它 加 载 到 高 速 缓存 中 。 


11.5 节 中 描述 的 复 用 分 析 可 以 用 于 估计 什么 时 候 可 能 发 生 高 速 缓存 
脱 靶 。 当 生成 预 取 指令 时 ， 有 两 个 重要 问题 需要 考虑 。 如 果 将 要 访问 连 
续 的 内 存 位 置 ， 我 们 只 需要 为 每 个 高 速 缓存 线 发 出 一 个 预 取 指令 。 我 们 
必须 足够 早 地 发 出 预 取 指令 ， 以 保证 在 使 用 这 个 数据 时 ， 它 已 经 在 高 速 
缓存 中 了 。 但 是 ， 我 们 不 应 该 过 早 地 发 出 预 取 指令 。 预 取 指 令 可 能 会 把 
高 速 缓存 中 还 需要 使 用 的 数据 转移 出 高 速 缓存 ， 而 预 取 到 的 数据 也 可 能 
会 因此 在 使 用 之 前 就 被 调 出 高 速 缓存 了 。 


考虑 下 面 的 代码 


for (i=0; ii<3; i++) 
for 《j=0; j<100; j++) 
hE 1 = 


























假设 目标 机 器 有 一 个 预 取 指令 。 该 指令 可 以 一 次 预 取 两 个 字 的 数据 ， 而 
一 个 预 取 指 令 的 延 时 大 约 等 于 上 面 的 循环 中 六 次 友 代 的 执行 时 间 。 图 
11-68 中 显示 了 这 个 例子 的 使 用 预 取 指令 的 代码 。 


for (i=0; ii<3; i++) { 
for (j=0; j<6; j+=2) 
prefetch(&A[i,j]); 
for (j=0; j<94; j+=2) { 
prefetch(&A[i,j+6]); 


AEisjl s rs 
区 于 可 于 二 

} 

for (j=94; j<100; j++) 
A[i,j] = ...; 





图 11-68 为 预 取 数据 而 修改 的 代 三 


我 们 把 最 内 层 的 循环 展开 两 次 ， 使 得 可 以 为 每 个 高 速 缓存 线 发 出 一 
个 预 取 指 令 。 我 们 使 用 软件 流水 线 化 概念 来 保证 在 数据 被 使 用 的 六 个 途 
代 之 前 预 取 数据 。 流 水 线 的 前 言 部 分 获取 了 前 6 个 迭代 中 使 用 的 数据 ， 
稳定 状态 循环 在 它 进 行 计算 的 同时 提前 预 取 6 个 迭代 。 尾 声 部 分 没有 预 
取 指 令 ， 只 是 直接 执行 余下 的 迭代 。 











11.12 ”第 11 章 总 结 


数组 的 并 行 性 和 局 部 性 。 对 于 并 行 性 和 基于 局 部 性 的 优化 而 言 ， 最 
重要 的 机 会 来 自 于 访问 数组 的 循环 。 在 这 些 循 环 中 ， 对 数组 元 系 的 
各 个 访问 之 间 的 依赖 关系 通常 是 有 限 的 ， 并 且 通 常 按 照 一 个 正则 的 
模式 访问 数组 元 素 。 这 些 因素 使 程序 可 以 获得 很 好 的 数据 局 部 性 ， 
高 效 使 用 缓存 。 

仿 射 访问 。 几 乎 所 有 的 并 行 化 及 数据 局 部 性 优化 的 理论 和 技术 都 假 
和 
, 消光 。 

迭代 空间 : 一 个 具有 d 个 循环 的 循环 拒 套 结构 定义 了 一 个 d 维 的 迭代 
空间 。 该 空间 中 的 点 都 是 值 的 4 元 组 ， 元 组 中 的 值 对 应 于 该 典 套 循 
环 结构 运行 时 各 个 循环 下 标的 取 值 。 在 仿 射 情况 下 ， 各 个 循环 下 标 
0 0 


Four ier-Motzkin 消 除 算 法 。 对 迭代 衬 间 的 关键 操作 之 一 是 把 定义 
该 空间 的 各 个 循环 重新 排列 。 这 么 做 要 求 把 一 个 多 面体 迭代 空间 投 
影 到 它 的 部 分 维度 上 。Fourier-Motzkin 算 法 把 一 个 给 定 变 量 的 上 下 
界 蔡 换 成 为 关于 这 些 界 限 的 不 等 式 。 

数据 依赖 与 数组 访问 。 在 为 了 并 行 性 和 局 部 性 优化 的 目的 而 处 理 循 
环 时 ， 我 们 需要 解雇 的 一 个 中 心 问题 是 确定 两 个 数组 访问 之 间 是 否 
具有 数据 依赖 关系 〈 也 就 是 它们 是 个 可 能 触及 同一 个 数组 元 素 ) 。 
如 果 这 些 访问 以 及 循环 界限 都 是 仿 射 鸭 ， 返 代 空 间 束 可 以 被 定义 为 
一 个 多 面体 。 而 上 面 的 问题 可 以 被 表示 为 一 个 特定 的 矩阵 - 回 量 方 
程 是 否 具 有 位 于 该 多 面体 中 的 解 。 

矩阵 的 秩 和 数据 复 用 。 用 来 反 述 一 个 数组 访问 的 矩阵 可 以 给 出 多 个 
关于 该 数组 访问 的 重要 信息 。 如 果 该 矩阵 的 秩 达到 最 大 值 “ 即 矩阵 
的 行 数 和 列 数 的 最 小 值 )， 那 么 当 这 个 循环 迭代 运行 时 ， 数 据 访 问 
不 会 两 次 触及 同一 个 元 素 。 如 果 数 组 是 按 行 〈 列 ) 存放 的 ， 那 么 删 
除 掉 最 后 (最 前 ) 一 行 后 得 到 的 矩阵 的 秩 可 以 告诉 我 们 这 个 访问 是 
侣 具有 民 好 的 局 部 性 ， 即 单个 高 速 缓存 线 中 的 元 素 被 几乎 同时 访 


问 。 

数据 依赖 关系 和 技 番 图 方程 。 如 果 我 们 仅仅 知道 对 同一 数组 的 两 个 
访问 触及 该 数组 的 同一 区 域 ， 我 们 并 不 能 判定 它们 是 售 真 的 访问 了 
菏 个 公共 元 素 。 原 因 是 每 个 访问 都 可 能 跳 过 某 些 元 素 。 比 如 ， 一 个 


























访问 读 写 侦 数 号 元 系 ， 男 一 个 访问 读 写 奇数 写 元 素 。 为 了 确定 是 否 
存在 数据 依赖 关系 ， 我 们 必须 求 一 个 于 看 图 方程 (只要 整数 解 〉 的 


解 。 

解 丢 番 图 线性 方程 。 关 键 技术 是 计算 各 个 变量 的 系数 的 最 大 公约 数 
(GCD) 。 只 有 当 这 个 最 大 公约 数 能 够 整除 常量 项 时 ， 方 程 才 可 能 
存在 整数 解 。 

空间 分 划 约 束 。 为 了 并 行 化 一 个 循环 侍 套 结构 的 执行 过 程 ， 我 们 需 
要 把 这 个 循环 的 迭代 映射 到 一 个 处 理 器 空间 。 这 个 处 理 器 空间 可 能 
具有 一 个 或 多 个 维度 。 空 间 分 划 约 束 是 说 如 果 不 同 迭 代 中 的 两 个 访 
问 之 间 具 有 数据 依赖 关系 〈 即 它们 访问 了 同一 个 数据 元 素 ) ， 那 么 
它们 必须 被 映射 到 同一 个 处 理 器 上 。 只 要 这 个 从 迭代 到 处 理 器 的 英 
a 0 


基本 代码 转换 。 用 来 并 行 化 共有 仿 射 数组 访问 的 程序 的 转换 是 七 个 
基本 转换 的 组 合 ， 它 们 是 : 循环 融合 、 循 环 裂变 、 重 新 索引 《给 循 
环 下 标 加 上 一 个 第 量 ) 、 比 例 变 换 (将 循环 下 标 乘 以 一 个 常量) 、 
反 置 “倒转 一 个 循环 的 下 标 ) 、 交 换 《 交 换 循环 的 顺序 ) 和 倾斜 
《改写 循环 使 得 迭代 空间 中 的 扫描 线 不 再 和 荣 个 坐标 轴 同 癌 ) 。 
并 行 运算 的 同步 。 有 时 ， 如 果 我 们 在 一 个 程序 的 步骤 之 间 插 入 同步 
运算 ， 就 可 以 获得 更 多 的 并 行 性 。 比 如 ， 相 邻 的 两 个 循环 峙 套 结构 
之 间 可 能 具有 数据 依赖 关系 ， 但 是 在 这 两 个 循环 之 间 的 同步 运算 可 
以 使 得 各 个 循环 被 单独 并 行 化 。 

流水 线 化 。 这 个 并 行 化 技术 允许 处 理 喜 共享 数据 ， 方 法 是 把 茶 些 数 
据 《〈 通 常 是 数组 元 素 ) 从 一 个 处 理 器 同步 传递 到 处 理 器 空间 中 的 相 
邻 的 处 理 器 。 这 个 方法 可 以 提高 每 个 处 理 器 所 访问 数据 的 局 部 性 。 
时 间 分 刘 约 束 。 为 了 找到 流水 线 化 的 机 会 ， 我 们 要 求 出 时 间 分 划 约 
束 的 解 。 这 些 约束 是 说 只 要 两 个 数组 访问 会 触及 同一 个 数组 元 素 ， 
那么 在 此 流水 线 中 ， 首 先 发 生 的 碗 代 中 的 访问 所 分 配 到 的 流水 线 阶 
段 不 得 晚 于 第 二 个 访问 所 分 配 的 流水 线 阶段 。 

求解 时 间 分 划 约 束 。Farkas 引 理 提供 了 一 个 有 力 的 求解 技术 。 它 可 
以 找 出 一 个 带 有 数组 访问 的 给 定 循 环 巷 套 结 构 所 允许 的 所有 仿 射 时 
间 分 划 上 映射 。 这 个 技术 实质 上 征 把 原来 的 表达 时 间 分 划 约 束 的 线性 
不 等 式 公 式 答 换 成 为 它 的 对 偶 系 统 。 

分 块 。 这 个 技术 把 一 个 循环 垦 套 结构 中 的 每 个 循环 都 分 割 成 为 两 个 
循环。 这 个 技术 的 优点 在 于 可 以 使 得 我 们 在 一 个 多 维 数 组 的 小 段 
( 块 ) 上 进行 计算 ， 每 次 处 理 一 个 块 。 这 么 做 提高 了 程序 的 局 部 
性 ， 使 处 理 单个 块 时 需要 的 数据 都 在 高 速 缓存 中 。 























。 条 状 挖 据 。 和 分 块 技术 类 似 ， 这 个 技术 只 把 一 个 循环 拒 套 结构 中 的 
一 部 分 循环 分 解 开 ， 每 个 循环 分 成 两 个 循环 。 这 人 么 做 的 好 处 是 一 个 
多 维 数 组 被 一 条 一 条 地 访问 ， 从 而 得 到 最 好 的 高 速 缓存 利用 率 。 
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本 章 描 述 的 数据 依赖 关系 分 析 基 于 Maydan、Hennessy、Lam [18」 和 
Pugh 及 Wonnacott [23」 的 工作 。 这 些 分 析 技 术 使 用 了 Fourier-Motzkin 消 
除 算法 [7] 和 Shostak 的 算法 [25] 。 


在 20 世 纪 70 年 代 和 80 年 代 早 期 已 经 有 人 利用 循环 转换 来 改进 同 量 化 
和 并 行 化 : 循环 融合 [3] 、 循 环 裂变 [1] 、 条 状 挖 掘 [17」 和 循环 互 
换 [28] 。 在 当时 进行 了 三 个 主要 的 实验 性 的 并 行 化 / 回 量 化 项 目 : 在 
Illinois Urbana-Champaingn 大 学 由 Kuck 领 导 的 Parafrase 项 目 [21] ， 由 
Rice 大 学 的 Kennedy 领 导 的 PFC 项 目 [4」 和 在 IBM 研 究 院 由 Allen 领 导 的 
PTRAN 项 目 [2] 。 


McKellar 和 Coffman [19] 最 先 讨 论 了 使 用 分 块 技术 来 提高 数据 局 
部 性 的 理论 。Lam、Rothbert 和 Wolf [12】] 率先 在 现代 体系 结构 的 高 速 
缓存 上 对 分 块 技 术 进 行 了 深入 的 实验 分 析 。Wolf 和 Lam [27】] 使 用 线性 
I Sarkar 和 Gao [24] 引入 了 数组 收 
缩 优 Na 


Lamport [13」 首先 把 循环 建 模 为 只 代 空间 ， 并 使 用 混合 规划 技术 
〈 仿 射 转换 的 一 个 特殊 情况 ) 来 为 多 处 理 器 系统 寻找 并 行 性 。 仿 射 转换 
的 最 原始 出 处 是 心跳 阵列 算法 的 设计 [11] 。 作 为 直接 实现 在 VLSI 上 
的 并 行 算法 ， 心 跳 阵列 要 求 在 并 行 化 的 同时 最 小 化 通信 和 量 。 代 数 技 术 用 
于 把 计算 映射 到 空间 和 时 间 坐 标 上 。 仿 射 调度 方案 的 概念 以 及 在 仿 射 转 
换 中 使 用 Farkas 引 理 首先 由 Feautrier [8]」 提 出。 本 章 描 述 的 仿 射 转换 算 
in 人 人 HLF Li ld 16] 


Porterfield 提 出 了 第 一 个 预 取 数据 的 编译 器 算法 。Mowry、Lam 和 
Gupta [20] 应 用 复 用 分 析 来 使 预 取 数 据 的 开销 降 到 最 小 ， 并 在 整体 上 


提高 了 性 能 。 
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[1 你 可 以 复习 一 下 7. 4 市 中 对 高 速 缓存 和 高 速 缓存 线 的 讨论 。 


[2] 在 本 章 中 的 程序 中 ， 我 们 通常 将 使 用 C0 语言 的 语法 ， 但 是 为 了 使 
得 多 维 数组 访问 (这 是 本 章 大 部 分 内 容 的 中 心 问题 ) 的 代码 更 加 易于 理 
解 ， 我 们 将 使 用 Fortran 风 格 的 数组 访问 ， 也 就 是 说 ， 使 用 Z [i, jj」] 而 


不 是 Z [i] [jj]。 


[3] 这 里 有 一 个 微妙 之 处 。 根 据 加 法 的 交换 率 ， 不 管 我 们 按照 什么 
顺序 执行 加 法 ， 我 们 依然 得 到 相同 的 结果 。 但 是 ， 这 种 情况 是 很 特别 
的 。 一 般 来 说 ， 让 编译 器 来 决定 在 一 个 写 运算 之 前 的 一 系列 算术 运算 步 
又 完成 哪些 计算 过 于 复杂 。 我 们 也 不 能 依赖 于 会 有 任何 代数 规则 来 帮助 


我 们 安全 地 重新 排列 这 些 步骤 。 


[4] 在 这 里 可 以 观察 到 一 件 很 有 意思 的 事情 。 虽 然 这 个 例子 有 一 个 
解 ， 但 如 果 我 们 把 第 三 个 分 量 if+j 改 成 i+j+1， 解 就 不 存在 了 。 也 就 是 
说 ， 在 这 个 给 定 的 例子 中 ， 两 个 访问 所 触及 的 数组 元 素 都 存在 于 一 个 二 
维 的 子 空间 S$ 中 。 该 空间 可 以 定义 为 “第 三 个 分 量 是 前 面 两 个 分 量 的 
和 ”。 如 果 我 们 把 ij 改 成 i+j+1， 则 第 二 个 访问 所 触及 的 元 素 都 不 在 $ 
中 ， 因 此 也 不 存在 任何 复 用 。 


[51 回 忆 一 下 静态 访问 和 动态 访问 之 间 的 区 别 。 一 个 静态 访问 是 程 
序 中 某 个 位 置 上 的 数组 引用 ， 而 一 个 动态 访问 是 这 个 引用 的 一 次 执行 。 


[6 请 记 住 ， 我 们 没有 利用 加 法 的 交换 率 和 结合 率 。 
[7Z 即 不 断 下 移 一 步 再 右 移 两 步 所 得 到 的 点 的 序列 。 


第 12 半 ”过 程 间 分 析 


在 这 一 章 中 ， 我 们 讨论 一 些 不 能 使 用 过 程 内 分 析 技 术 解 决 的 优化 问 
题 ， 由 此 引出 了 过 程 间 分 析 的 重要 性 。 我 们 将 首先 描述 过 程 间 分 析 的 第 
见 形式 ， 并 解释 实现 它们 的 难点 。 然 后 将 描述 过 程 间 分 析 的 应 用 。 对 于 
诸如 C 和 Java 这 样 广泛 使 用 的 程序 设计 语言 ， 指 针 别 名 分 析 是 所 有 过 程 
间 分 析 技 术 的 关键 之 处 。 因 此 本 章 将 用 大 量 篇 幅 讨论 获取 程序 中 的 指针 
别名 信息 所 需要 的 技术 。 我 们 先 给 出 Datalog 的 描述 ， 这 种 表示 方法 极 大 
地 隐藏 了 一 个 高 效 指针 分 析 技 术 的 复杂 性 。 然 后 我 们 描述 一 个 用 于 指针 
别名 分 析 的 算法 ， 并 说 明 如 何 使 用 二 分 决策 图 (Binary Decision 
Diagram, BDD ) 来 高 效 地 实现 这 个 算法 。 


大 部 分 编译 器 优化 技术 ， 包 括 那些 在 第 9、10、11 章 中 描述 的 拉 
术 ， 都 是 每 次 在 一 个 过 程 中 执行 的 。 我 们 把 这 样 的 分 析 称 为 过 程 内 分 
析 。 这 些 分 析 保 守 地 假设 被 调用 的 过 程 有 可 能 改变 过 程 可 见 的 所 有 变量 
的 状态 ， 并 且 它 们 还 可 能 产生 茶 种 副作用 ， 比 如 改变 此 过 程 可 见 的 任何 
变量 的 值 ， 或 产生 导致 调用 栈 释放 的 异常 。 因 此 ， 过 程 内 分 析 昌 然 不 精 
确 ， 但 是 却 相对 人 简单。 有 些 优化 不 需要 过 程 间 分 析 ， 而 有 些 优化 不 借助 
过 程 间 分 析 几 乎 不 会 产生 有 用 的 信息 。 


一 个 过 程 间 分 析 处 理 的 是 整个 程序 ， 它 将 信息 从 调用 者 传送 到 被 调 
用 者 ， 或 者 反 回 传送 。 一 个 相对 简单 但 有 用 的 技术 是 过 程 内 联 
(Ginline) ， 就 是 把 一 个 过 程 调 用 谷 换 为 极 调 用 过 程 的 过 程 体 。 在 丛 换 
时 需要 考虑 参数 传递 和 返回 值 ， 因 此 需要 进行 适当 修改 。 只 有 当 我 们 知 
道 这 个 过 程 调用 的 目标 后 才 可 以 应 用 这 个 方法 。 


如 果 过 程 是 通过 一 个 指针 或 面 同 对 象 编程 中 常见 的 过 程 分 发 机 制 间 
接 调 用 的 ， 那 么 对 程序 指针 或 引用 的 分 析 有 时 可 以 确定 这 个 间接 调用 的 
目标 。 如 果 目 标 是 唯一 的 ， 那 么 就 可 以 应 用 过 程 内 联 方 法 。 


即使 确定 了 每 个 过 程 调 用 只 有 一 个 调用 目标 ， 仍 然 必须 谨慎 使 用 内 
联 转换 。 一 般 来 说 ， 不 可 能 直接 内 联 递归 的 过 程 ， 并 且 即 使 没有 递归 ， 
内 联 转换 也 可 能 指数 级 地 增加 代码 的 大 小 。 




















12.1 基本 概念 


在 本 市 中 ， 我 们 将 介绍 调用 图 ， 就 是 告诉 我 们 哪个 过 程 调用 了 哪个 
过 程 的 图 。 我 们 也 会 介绍 “< 上下文 相关 ”的 思想 ， 即 进行 数据 流 分 析 时 需 
要 认识 到 过 程 调用 的 序列 是 什么 。 也 就 是 说 ， 当 上 下 文 相关 分 析 在 区 分 
程序 中 的 不 同 “ 位 置 ? 时 ， 它 不 仅 考虑 当前 的 程序 点 ， 还 考虑 当前 栈 中 的 
活动 记录 的 序列 《或 其 大 纲 ) 。 


12.1.1 调用 图 


一 个 程序 的 调用 图 (call graph) 是 一 个 结 点 和 边 的 集合 ， 并 满足 
1) 对 程序 中 的 每 个 过 程 都 有 一 个 结 点 。 


2) 对 于 每 个 调用 点 (call site) 都 有 一 个 结 点 。 上 所谓 调用 点 就 是 程 
序 中 调用 茶 个 过 程 的 一 个 位 置 。 


3) 如 果 调 用 点 c 调 用 了 过 程 p， 就 存在 一 条 从 c 的 结 点 到 p 的 结 点 的 
La 








很 多 用 诸如 C 或 Fortran 语 言 编写 的 程序 直接 进行 过 程 调 用 ， 因 此 每 
个 调用 的 调用 目标 可 以 静态 地 确定 。 在 这 种 情况 下 ， 调 用 图 中 的 每 个 调 
用 点 都 恰好 有 一 条 边 指向 一 个 过 程 。 但 是 ， 如 果 程 序 使 用 了 过 程 参 数 或 
函数 指针 ， 一 般 来 次， 需要 到 程序 运行 时 刻 才 能 知道 调用 目标 ， 而 且 实 
际 上 可 能 各 次 调用 的 目标 都 有 所 不 同 。 那 么 ， 一 个 调用 点 可 能 连接 到 调 
用 图 中 的 多 个 甚至 所 有 的 过 程 。 


对 于 面 癌 对 象 程 序 设 计 语 言 来 次 ， 间 接 调用 是 标准 的 调用 方式 。 特 
别 地 ， 当 存在 子 类 对 方法 进行 重 载 的 情况 时 ， 对 方法 m 的 使 用 可 能 指向 
多 个 不 同方 法 中 的 任意 一 个 ， 这 要 取决 于 该 调用 所 作用 的 接收 对 象 的 子 
类 。 使 用 这 样 的 虚 (virtual) 方法 调用 意味 着 我 们 需要 知道 接收 者 的 类 
型 之 后 才 可 以 确定 调用 了 哪个 方法 。 














图 12-1 显 示 了 -一个 C 程 序 。 该 程序 声明 pf 是 一 个 指向 类 型 为“ 束 

j 整 数 ” 的 函数 的 全 局 指针 。 有 两 个 函数 fun1 和 fun2 是 这 个 类 型 。 此 
外 ，main 函 数 不 是 pf 所 指向 的 类 型 。 图 中 显示 了 三 个 调用 点 ， 标 记 为 
c1、c2 和 cs3， 这 些 标号 不 是 程序 的 一 部 分 。 





int (*pf) (int); 


int funl(int x) 1 
if (x < 10) 
return (*pf) (x+1); 
else 
return x; 


} 


int fun2(int y) 二 
pf = &funil; 
return (*pf)(y); 

} 


void main() { 
pf = &fun2; 
(*pf) (5) ; 

} 





图 12-1 一 个 具有 函数 指针 的 程序 


最 简单 的 对 pf 可 能 指 癌 哪个 函数 的 分 析 只 查看 函数 的 类 型 。 函 
数 fun1 及 fun2 和 pf 所 指 回 的 对 象 具有 相同 的 类 型 ， 而 main 则 不 同 。 因 
此 ， 一 个 保守 的 调用 图 如 图 12-2a 所 示 。 对 这 个 程序 进行 更 深入 的 分 
析 ， 就 可 以 观察 到 pf 在 main 中 指向 fun2， 而 在 fun2 中 指 加 fun1。 但 是 没 
有 其 他 的 对 任何 指针 的 赋值 ， 因 此 pf 不 可 能 指 癌 main 函 数 。 这 个 推理 过 
程 产生 的 调用 图 和 图 12-2a 中 的 相同 。 


一 个 更 加 精确 的 分 析 将 指出 pf 在 c3 上 只 可 能 指 问 fun2， Dr 
个 调用 之 前 的 赋值 语句 将 fun2 赋 给 pf。 类似 地 ， pf 在 c2 处 只 可 能 指 
ei 分 析 的 结果 是 ， 对 fun1 的 第 一 次 调用 必然 是 fun2 做 出 的 ， 
且 funi 不 会 改变 pf 的 值 ， 因此 当 我 们 在 fun1 中 时 ， pf 不 指 问 fun1。 特别 
地 ， 我 们 可 以 确信 pf 在 ci 处 指向 fun1。 因 此 ， 图 12-2b 是 一 个 更 加 精确 、 
正确 的 调用 图 。 











图 12-2 从 图 12-1 得 到 的 调用 图 


一 般 来 说 ， 当 出 现 了 对 函数 或 方法 的 引用 或 指针 时 ， 要 求 我 们 对 所 
有 过 程 参 数 、 指 针 、 接 收 对 象 类 型 等 的 可 能 取 值 进行 静态 估计 。 要 得 到 
一 个 精确 的 估计 值 束 必 须 进行 过 程 间 分 析 。 这 个 分 析 从 可 以 静态 观察 到 
的 目标 开始 ， 迭 代 地 进行 。 当 发 现 一 个 新 的 调用 目标 时 ， 分 析 过 程 就 会 
把 一 条 新 边 加 入 到 调用 图 中 ， 并 不 断 寻 找 更 多 的 目标 ， 直 到 收敛。 





12.1.2 ”上下文 相关 


过 程 间 分 析 很 具有 挑战 性 ， 因 为 各 个 过 程 的 行为 和 它 被 调用 时 所 在 
的 上 下 文 相关 。 例 12.2 通 过 一 个 小 程序 上 的 过 程 间 和 常量 传播 问题 说 明了 
上 上 下 文风 是 妥 全 5 


考虑 图 12-3 中 的 程序 片段 。 函 数 往 三 个 调用 点 cL1、c2 和 c3 上 被 
调用 。 在 循环 的 每 次 迭代 中 ， 常 量 0 在 c1 上 被 作为 实在 参数 传递 ， 而 常 
量 243 在 c2 和 c3 上 被 传递 ， 这 些 调用 分 别 返 回 常量 1 和 244。 因 此 ， 在 各 
个 上 下 文中 函数 {的 实在 参数 都 是 常量 ， 但 是 常量 的 具体 值 要 根据 上 下 
文 而 定 。 











0; i < n; i++) { 
f(0)s 
f (243); 
f (243); 
X[i] = ti+t2+t3; 


int f (int v) { 
return (v+1); 


} 





图 12-3 用 来 说 明 上 下 文 相关 分 析 的 需求 的 一 个 程序 片断 


如 我 们 将 看 到 的 ， 除 非 我 们 能 够 知道 在 上 下 文 c1 中 调用 f 时 返回 1， 
且 在 其 他 两 个 上 下 文中 调用 f 时 返回 244， 否 则 不 可 能 指出 ti1、t2 和 t3 都 
被 赋予 了 一 个 常量 值 (因此 X [ij 也 被 赋予 了 常量 值 )。 通 过 一 个 简单 
的 分 析 就 可 以 知道 对 f 的 各 次 调用 的 返回 值 可 能 是 1 或 244。 


一 种 非常 简单 但 是 极端 不 精确 的 过 程 间 分 析 方 法 称 为 上 下 文 无 关 分 
析 (context-insensitive analysis) 。 它 把 每 个 调用 和 返回 语句 看 作 一 
个 “goto” 操 作 。 我 们 创建 一 个 超级 控制 流 图 。 图 中 除了 一 般 的 过 程 内 控 
制 流 边 外 还 有 一 些 附加 的 边 。 这 些 边 包括 


1) 从 每 个 调用 点 到 它 所 调用 的 过 程 的 开始 处 的 边 。 
2) 从 返回 语句 回 到 调用 点 的 边 叫 。 


另外 还 增加 了 一 些 赋值 语句 ， 它 们 把 实在 参数 赋 给 相应 的 形式 参 
数 ， 并 把 返回 值 赋 给 接收 返回 结果 的 变量 。 然 后， 我 们 就 可 以 对 这 个 超 
级 控制 流 图 应 用 那些 为 分 析 单 个 过 程 而 设计 的 标准 分 析 技术 ， 找 出 上 下 
文 无 关 的 过 程 间 分 析 结 果 。 这 个 模型 虽然 简单 ， 但 它 抽 象 控 了 过 程 调 用 
中 输入 值 和 输出 值 之 间 的 重要 关系 ， 使 得 分 析 结 果 不 够 精确 。 


图 12-3 中 的 程序 的 超级 控制 流 图 显示 在 图 12-4 中 。 块 B6 就 是 函 
数 f。 块 Ba 包含 了 调用 点 c1， 它 把 形式 参数 v 设 置 为 0， 然 后 跳 转 到 f 的 开 
始 处 。 类 似 地 ，B4 和 了 Bs 分 别 表示 调用 点 c2 和 c3。B4 可 以 从 f (基本 块 


Be) 的 结尾 处 到 达 。 我 们 在 B4 中 把 { 的 返回 值 赋 给 tt。 然 后 把 形式 参数 v 
设置 成 243 并 通过 跳 转 到 Be 再 次 调用 f。 请 注意 ， 没 有 从 B3 到 达 B,4 的 边 。 
在 从 B3 到 达 B,4 的 路 上 ， 控 制 流 必 须 穿 越 f。 


B i=0 





| 
t3 = retval 
有 t4 = 七 1+t2 | i<n goto | 
t5 = t4+t3 B 
X[i] = t5 
i = i+l 






























t2 = retval 
c3: V = 243 


| 


f: retval = V+1 

















图 12-4 图 12-3 的 控制 流 图 ， 它 把 函数 调用 当 作 控 制 流 处 理 


Bs 和 Bs 类 似 。 它 接收 来 自 f 的 返回 值 并 把 返回 值 赋 给 t2， 并 初始 化 
对 f 的 第 三 次 调用 。 块 By 表示 了 第 三 次 调用 的 返回 和 对 X [ij 的 赋值 。 


如 果 我 们 把 图 12-4 当 作 单 个 过 程 的 流 图 ， 那 么 可 以 断定 当 控 制 流 进 
入 Bi 时 ，v 的 值 可 以 是 0 或 243。 因 此 ， 我 们 最 多 能 够 断定 retval 的 值 是 1 
或 244， 而 不 会 是 其 他 值 。 类 似 地 ， 关 于 t1、t2 和 t3， 我 们 只 能 断定 它们 
的 值 是 1 或 244。 因 此 ， 看 起 来 X [ij 的 值 为 9、246、489 或 732 之 一 。 反 
过 来 ， 一 个 上 下 文 相关 分 析 可 以 区 分 每 次 调用 上 下 文 的 结果 ， 并 产生 例 
人 ti 总 是 1，t2 和 t3 的 值 总 是 244， 而 X [ij] 的 值 
为 489。 


12.1.3 ”调用 串 





在 例 12.2 中 ， 我 们 只 需要 知道 调用 过 程 { 的 调用 点 就 可 以 区 分 不 同 的 
上 下 文 。 一 般 情 况 下 ， 一 个 调用 上 下 文 是 通过 整个 调用 栈 中 的 内 容 来 定 
义 的 。 我 们 把 栈 中 各 个 调用 点 组 成 的 串 称 为 调用 串 〈call string) 。 


图 12-5 是 对 图 12-3 进 行 细微 的 修改 后 得 到 的 。 这 里 我 们 把 对 f 的 
雹 用 将 换 成 对 g 的 调用 。 函 数 g 随 后 用 同样 的 参数 调用 f。 函 数 g 调 用 { 的 地 
点 是 c4， 这 是 一 个 新 增 的 调用 点 。 


for (i = 0; i < n; i++) { 
tl = g(0); 
t2 = g(243); 
t3 = g(243); 
X[i] = ti+tt2+t3; 


} 


int g (int v) { 
return f(v); 


} 


int £f (int v) { 
return (v+1); 





} 
图 12-5 演示 调用 串 的 程序 片段 


有 三 个 对 应 于 f{ 的 调用 串 : (ci,，c4) 、(c2，c4) 和 (c3，c4) 。 如 
我 们 在 这 个 例子 中 见 到 的 ， 函 数 f 中 v 的 值 并 不 由 调用 串 中 的 直接 (或 者 
CR 
元 素 决定 的 。 





例 12.4 表 明 ， 与 分 析 相 关 的 信息 可 能 在 调用 链 的 早期 就 被 引入 。 事 
实 上 ， 如 例 12.5 所 示 ， 为 了 得 到 最 精确 的 答案 ， 有 时 甚至 需要 考虑 计算 
整个 调用 串 。 


这 个 例子 说 明了 对 不 限 长 度 的 调用 串 的 分 析 能 力 是 如 何 产生 出 
0 种 人 确 的 结果 的 。 在 图 12-6 中 ， 我 们 看 到 如 果 用 一 个 正 数值 来 调用 








g，8& 将 会 被 递归 地 调用 c 次 。 每 次 g 被 调用 的 时 候 ， 它 的 参数 v 的 值 减 
一 。 因 此 ， 在 调用 串 为 c2 (c4) ?的 上 下 文中 ，g 的 参数 v 的 值 是 243-n。 
a g 的 功能 就 是 把 0 或 任何 负 参 数 加 一 ， 并 对 任何 大 于 等 于 1 的 参数 
返回 2。 











for (i = 0; i < n; i++) + 
ti = g(0); 
t2 = g(243); 
t3 = g(243); 
X[i] = tl1l+t2+t3; 
} 


int g (int v) { 


if (v > 1) { 
return gl(v-1); 
} else { 
return f(v); 


} 


int f (int v) { 
return (v+1); 


} 





图 12-6 需要 分 析 整 个 调用 串 的 递归 程序 


函数 人 有 三 个 可 能 的 调用 串 。 如 果 我 们 从 ci 处 的 调用 开始 ， 那 么 g 可 
以 立刻 调用 f， 因 此 “cl1，c5) 就 是 这 样 的 一 个 串 。 如 果 我 们 从 c2 或 c3 开 
始 ， 那 么 我 们 共 调 用 g 243 次 ， 然 后 再 调用 f。 这 些 调用 串 是 (c2,，c4， 
c4，.. ，c5) 和 (c3，c4，c4，... ，c5) ， 在 这 两 种 情况 下 的 序列 中 都 有 
242 个 c4。 在 这 些 上 下 文中 ， 在 第 一 个 上 下 文中 f 的 参数 v 的 值 是 0， 而 在 
另外 两 个 中 的 参数 值 为 1。 


在 设计 一 个 上 下 文 相关 分 析 的 时 候 ， 我 们 可 以 选择 不 同 的 精确 度 。 
比如 ， 我 们 可 以 选择 只 使 用 调用 串 中 最 直接 的 k 个 调用 点 来 区 分 上 下 
文 ， 而 不 是 使 用 整个 调用 串 来 所 高 分 析 结 果 的 质量 。 这 个 拷 术 被 称 为 k- 
界限 上 下 文 分 析 技 术 。 上 下 文 无 关 分 析 束 是 k- 界 限 上 下 文 分 析 技 术 在 
k=0 时 的 特例 。 我 们 可 以 使 用 1- 界 限 分 析 技 术 找 出 例 12.2 中 的 所 有 和 营 量 ， 
用 2- 界 限 分 析 技 术 找 出 例 12.4 中 的 所 有 常量 。 但 是 ， 只 要 例 12.5 中 的 第 
量 243 被 葵 换 成 为 不 同 的 任意 大 小 的 常量 值 ， 没 有 任何 k- 界 限 分 析 可 以 


找 出 该 例 中 的 所 有 常量 。 


如 末 不 选 定 一 个 固定 的 k 值 ， 另 一 种 可 行 方法 是 对 所 有 无 环 调用 哩 
进行 完全 的 上 下 文 相关 分 析 。 所 谓 无 环 调用 串 就 是 不 包含 递归 环 的 调用 
串 。 对 于 所 有 带 有 递归 的 调用 串 ， 我 们 可 以 把 所 有 的 递归 环 都 塌 缩 成 一 
个 点 ， 以 便 限 定 需 要 分 析 的 不 同上 下 文 的 数目 。 在 例 12.5 中 ， 从 调用 点 
c2 开 始 的 调用 可 以 用 调用 串 〈c2，c4*，c5) 近似 地 表示 。 请 注意 ， 使 用 
这 种 方案 时 ， 即 使 对 于 不 带 递 归 的 程序 ， 不 同调 用 上 下 文 的 数目 和 程序 
中 的 过 程 数 目 呈 指数 关系 。 








12.1.4 基于 克隆 的 上 下 文 相关 分 析 


上 下 文 相 关 分 析 的 男 一 个 方法 是 在 概念 上 克隆 被 调用 过 程 ， 对 于 每 
个 感 兴 趣 的 上 下 文 都 进行 一 次 克隆 。 然 后 我 们 就 可 以 对 克隆 过 的 调用 图 
应 用 上 下 文 无 关 分 析 。 例 12.6 和 12.7 分 别 给 出 了 和 例 12.4 和 12.5 等 价 的 克 
隆 版 本 。 在 实际 分 析 时 ， 我 们 不 需要 真 的 克隆 代码 ， 而 是 可 以 直接 使 用 
一 个 高 效 的 内 部 表示 来 跟踪 各 个 克隆 部 分 的 分 析 结 果 。 


图 12-5 的 克隆 版 本 显示 在 图 12-7 中 。 因 为 每 个 调用 上 下 文 指向 
一 个 个 同 的 克隆 ， 因 此 不 存在 混淆 的 情况 。 比 如 ，g1 的 输入 为 0， 产 生 
输出 1; g2 和 g3 接 受 输入 243 并 产生 输出 244。 

















for (i = 0; i < n; i++) { 
tl = g1(0); 
t2 = g2(243); 


t3 = g3(243); 
X[i] = tl1+t2+t3 ; 


gl (int v) + 
return f1(v); 


g2 (int v) + 
return f2(v); 


g3 (int v) { 
return f3(v); 


fl (int v) { 
return (v+1); 


f2 (int v) { 
return (v+1); 


f3 (int v) { 
return (v+1); 





图 12-7 图 12-5 的 克隆 版 本 


例 12.5 的 克隆 版 本 显示 在 图 12-8 中 。 我 们 创建 了 过 程 g 的 一 个 
卒中 本 ， 它 代表 所 有 首先 在 cl1、c2 和 c3 处 调用 的 g 的 实例 。 在 这 种 情况 
下 ， 如 果 一 个 分 析 技 术 能 够 从 v=0 推 导出 v>1 不 成 立 ， 那 么 该 分 析 将 会 确 
定 在 调用 点 cl 处 的 调用 将 会 返回 1。 但 是 ， 这 个 分 析 不 能 很 好 地 处 理 弟 
归 ， 不 能 分 析 得 到 调用 点 c2 和 c3 处 的 常量 值 。 








for (i = 0; i < n; i++) { 


[od tl = g1(0); 
CE25 t2 = g2(243); 
c3: t3 = g3(243); 
X[i] = ti+t2+t3; 
让 
int g1 (int v) { 
i (wv 4 
c4.1: return gl(v-1); 
} else { 
eBDtds return f1i(v);} 
} 
int g2 (int v) { 
if (v > 1) { 
C4..285 return g2(v-1); 
} else { 
5.2: return f2(v);} 
} 
int g3 (int v) { 
if (v > 1) { 
c4.3: return g3(v-1); 
} else { 
c5.3: return f3(v);} 


} 


int fl (int v) { 
return (v+1); 


int f2 (int v) { 
return (v+1); 

上 

int f3 (int v) { 
return (v+1); 


} 








图 12-8 图 12-6 的 克隆 版 本 


12.1.5 ”基于 摘要 的 上 下 文 相关 分 析 


基于 摘要 的 过 程 间 分 析 是 基于 区 域 的 分 析 技 术 的 扩展 。 基 本 上 ， 在 
一 个 基于 摘要 的 分 析 中 ， 每 个 过 程 使 用 一 个 简洁 的 描述 《摘要 ) 来 刻 
划 。 这 个 描述 包含 这 个 过 程 的 茶 些 可 观察 行为 。 摘 要 的 主要 目的 是 避免 
在 每 个 可 能 调用 茶 过 程 的 调用 点 上 都 重复 分 析 该 过 程 的 过 程 体 。 


让 我 们 首先 考虑 没有 递归 的 情况 。 每 个 过 程 被 建 模 为 只 有 一 个 入 口 








点 的 区 域 。 每 一 对 调用 者 -被 调用 者 之 间 具 有 类 似 于 外 层 区 域 - 内 层 区 域 
的 关系 。 和 过 程 内 分 析 的 唯一 不 同 在 于 ， 在 过 程 间 分 析 时 ， 一 个 过 程 区 
域 可 能 租 套 在 多 个 不 同 的 外 层 区 域 中 。 


这 个 分 析 由 两 部 分 组 成 : 


1) 一 个 自 底 癌 上 的 阶段 ， 它 为 每 个 过 程 计 算出 一 个 总 络 该 过 程 的 
效果 的 传递 函数 。 


2) 一 个 自 顶 辐 下 的 阶段 ， 它 传播 和 调用 者 有 关 的 信息 ， 计 算出 被 
调用 者 的 结果 。 


为 了 得 到 完全 上 下 文 相 关 的 结果 ， 来 日 不 同调 用 上 下 文 的 信息 必须 
被 单独 传递 到 航 调 用 者 。 如 采 和 希望 计算 过 程 更 高 效 ， 但 是 允许 相对 的 不 
精确 性 ， 那 么 也 可 以 使 用 一 个 交 函 数 合并 来 自 各 个 调用 者 的 信息 ， 然 后 
再 问 下 传播 到 被 调用 者 。 


对 于 和 常量 传播 ， 每 个 过 程 都 使 用 一 个 传递 函数 作为 其 摘要 ， 该 
贞 数 描述 了 过 程 是 如 何 通过 它 的 过 程 体 传播 常量 的 。 在 例子 12.2 
中 ， 我 们 可 以 把 { 总 结 为 如 下 的 函数 : 如 果 把 一 个 常量 c 作 为 v 的 实在 参 
数 ， 那 么 该 函数 返回 常量 c+1。 基 于 这 个 信息 ， 这 个 分 析 过 程 将 确定 
t1、t2 和 ft3 分 别 具 有 常量 值 1、244 和 244。 请 注意 ， 这 个 分 析 过 程 并 没有 
因为 不 可 实现 的 调用 串 而 产生 不 精确 的 结果 。 


回忆 一 下 ， 例 子 12.4 扩 展 了 例子 12.2， 增 加 了 一 个 函数 g 来 调用 f。 
因此 我 们 可 以 得 出 结论 ，g 的 传递 函数 和 f{f 的 传递 函数 是 相同 的 。 我 们 仍 
然 可 以 确定 tLt、t2 和 t3 分 别 具 有 销量 值 1、244 和 244。 


现在 让 我 们 考虑 例子 12.2 中 函数 {内 的 参数 v 的 值 是 什么 。 最 初 考虑 
时 ， 我 们 可 以 把 所 有 调用 上 下 文 的 结果 组 合 在 一 起 。 因 为 v 的 值 可 以 是 0 
或 者 243， 所 以 可 以 简单 地 确定 Vv 不 是 一 个 常量 。 这 个 结论 是 合理 的 ， 
为 没有 哪个 常量 可 以 从 换代 码 中 的 v。 


如 果 我 们 希望 得 到 更 加 精确 的 结果 ， 那 么 可 以 为 感 兴趣 的 上 下 文 计 
算 特定 值 。 必 须 把 信息 从 我 们 感 兴趣 的 上 下 文 回 下 传递 ， 以 确定 和 这 个 
上 下 文 相关 的 答 采 。 这 个 步 又 和 基于 区 域 的 分 析 中 的 自 顶 加 下 过 程 类 
似 。 比 如 ，v 在 调用 点 ci 处 的 值 为 0%， 而 它 在 调用 点 c2 和 c3 处 的 值 为 
243。 为 了 利用 f 内 部 的 常量 传播 性 质 ， 我 们 需要 创建 两 个 克隆 来 表示 这 








两 者 的 不 同 ， 第 一 个 克隆 是 针对 输入 值 0 的 特例 ， 而 后 一 个 克隆 是 针对 
输入 值 243 的 特例 ， 如 图 12-9 所 示 。 


for (i = 0; i < n; i++) { 
tl = f0(0) ; 
t2 = f243(243); 
t3 = f243(243) ; 
X[i] = ti+t2+t3; 


} 


int f0 (int v) { 
return (1); 


} 


int f243 (int v) { 
return (244); 
} 





图 12-9 ”将 所 有 可 能 的 常量 参数 传递 给 函数 f 后 的 分 析 结 果 


通过 例子 12.8， 了 最 后 我 们 看 到 如 果 和 希望 在 不 同 的 上 下 文中 以 不 同 的 
方式 编译 代码 ， 仍 然 需要 克隆 代码 。 本 方法 和 基于 克隆 的 方法 的 不 同 之 
处 在 于 后 者 在 分 析 之 前 就 需要 根据 调用 串 进行 克隆 。 在 基于 摘要 的 方法 
中 ， 克 隆 是 在 分 析 之 后 ， 以 分 析 结 果 为 基础 进行 克隆 。 即 使 没有 进行 殉 
隆 ， 在 基于 摘要 的 方法 中 关于 一 个 被 调用 过 程 的 运行 效果 的 推理 结果 也 
征 精 确 的， 不 会 出 现 不 可 实现 路 径 的 问题 。 


除了 克隆 一 个 函数 ， 我 们 也 可 以 对 代码 进行 内 联 处 理 。 内 联 的 男 一 
个 效果 是 消除 了 过 程 调 用 的 开销 。 


我 们 可 以 用 计算 不 动 扣 解 的 方法 来 处 理 递 归 。 当 出 现 递 归 时 ， 我 们 
首先 找 出 调用 图 中 的 强 连 通 分 量 。 在 自 底 向 上 阶段 ， 只 有 当 一 个 强 连通 
分 量 的 所 有 后 继 都 已 经 被 访问 之 后 ， 我 们 才 访 问 这 个 分 量 。 对 于 一 个 非 
平凡 的 强 连 通 分 量 ， 我 们 迭代 地 为 该 分 量 中 的 每 个 过 程 计算 传递 函数 ， 
直到 重复 过 程 收 敛 为 止 。 也 束 是 说 ， 我 们 达 代 地 更 新 这 些 传递 函数 ， 直 
到 它们 不 再 发 生 改 变 为 止 。 














12.1.6 12.1 节 的 练习 





练习 12.1.1: 图 12-10 中 是 一 个 带 有 两 个 函数 指针 p 和 qd 的 C 程 序 。N 
是 常量 ， 它 可 能 比 10 小 也 可 能 比 10 大 。 请 注意 ， 这 个 程序 会 产生 无 穷 的 
过 程 调用 序列 ， 但 是 这 和 我 们 当前 考虑 这 个 问题 的 目的 无 关 。 


int (*p) (int); 
int (*q) (int); 


int f(int i) { 
if (i < 10) 
{p = &g; return (*q) (i);} 
else 
{p = &f; return (*p) (i);} 
上 


int g(int j) { 


if (j < 10) 
{q = &f; return (*p)(j);} 
else 
{q = &g; return (*q)(j);} 
} 


void main() { 
p = &f; 
qd = &g 
cap dr 





图 12-10 ”练习 12.1.1 的 程序 
1) 找 出 本 程序 中 的 所 有 调用 点 。 
2) 对 于 每 个 调用 点 ，p 可 能 指向 哪些 函数 ? qd 可 能 指向 哪些 函数 ? 
3) 画 出 这 个 程序 的 调用 图 。 
4) 描述 f 和 8g 的 所 有 调用 串 。 
练习 12.1.2: 图 12-11 中 有 一 个 函数 id>， 这 个 函数 是 一 个 “单位 函 


数 "。 它 的 返回 值 就 是 传递 给 它 的 参数 值 。 图 中 还 有 一 个 代码 片段 ， 该 
片段 包含 一 个 分 文 语 句 ， 后 面 跟随 一 个 计算 x+y 的 和 的 赋值 语句 。 


int id(int x) { return x;} 


4 


else {x= id(3); y = id(2); } 
Z = x+y; 





图 12-11 练习 12.1.2 的 代码 片断 
1) 检查 这 个 代码 ， 关 于 z 在 结尾 处 的 值 ， 我 们 可 以 有 哪些 结论 ? 
2) 把 对 id 的 调用 当 作 控制 流 处 理 ， 为 这 个 代码 片段 构造 流 图 。 


3) 如 果 我 们 对 问题 2 中 得 到 的 流 图 应 用 9.4 节 中 描述 的 常量 传播 分 
析 ， 可 以 确定 哪些 第 量 值 ? 


4) 图 12-11 中 的 全 部 调用 点 是 哪些 ? 
5) 共有 哪些 调用 了 id 的 上 下 文 ? 


6) 改写 图 12-11 中 的 代码 ， 为 每 一 个 调用 id 的 上 下 文 元 隆 一 
数 id 的 新 版 本 。 


7) 把 对 id 的 调用 作为 控制 流 处 理 ， 构 造 你 在 问题 6 中 得 到 的 代码 的 


对 于 在 问题 7 中 得 到 的 流 图 进行 常量 传播 分 析 。 现 在 可 以 确定 哪 


.地 


12.2 为 什么 需要 过 程 间 分 析 


我 们 已 经 说 明了 过 程 间 分 析 有 多 么 困难 ， 现 在 让 我 们 来 解决 一 个 重 
要 的 问题 : 我 们 为 什么 以 及 和 希望 在 什么 时 候 使 用 过 程 间 分 析 。 虽 然 我 们 
使 用 常量 传播 的 例子 来 演示 过 程 间 分 析 ， 但 这 个 过 程 间 优化 技术 并 不 是 
容易 使 用 的 ， 而 且 进行 这 个 分 析 也 没有 什么 特别 的 好 处 。 仅 仅 通 过 过 程 
内 分 析 和 把 最 频繁 执行 的 代码 段 中 的 过 程 调用 进行 内 联 处 理 ， 就 可 以 获 
得 常量 传播 的 大 部 分 好 处 。 


但 是 ， 有 很 多 理由 可 以 说 明 为 什么 过 程 间 调 用 是 非常 重要 的 。 下 面 
我 们 描述 过 程 间 分 析 的 几 个 重要 应 用 。 


12.2.1 ” 虚 方 法 调用 


上 面 提 到 过 ， 面 加 对 象 程序 有 很 多 小 的 方法 。 如 采 我 们 每 次 只 对 一 
个 方法 进行 优化 ， 那 么 只 能 找到 很 少 的 优化 机 会 。 对 方法 调用 进行 解析 
就 可 以 促成 更 多 的 优化 。 像 Java 这 样 的 程序 设计 语言 动态 地 载 入 它 的 
类 。 结 果 ， 我 们 在 编译 时 刻 不 知 道 在 x.m() 这 样 的 调用 中 对 m 的 某 次 使 用 
到 压 指 和 铝 〈 可 能 的 ) 多 个 名 为 m 的 方法 中 的 哪 一 个 。 


很 多 Java 语 言 的 实现 使 用 了 一 个 即时 编译 器 ， 在 运行 时 刻 对 它 的 字 
节 码 进行 编译 。 一 个 稼 见 的 优化 技术 是 找 出 程序 执行 的 剖面 图 ， 并 确定 
接收 对 象 通 第 是 什么 类 型 。 然 后 ， 我 们 可 以 把 调用 最 频繁 的 方法 内 联 到 
调用 代码 中 。 相 应 的 代码 包含 了 对 这 个 类 型 的 动态 检查 ， 如 果 运 行 时 刻 
的 接收 对 象 具 有 预期 的 类 型 就 执行 内 联 的 方法 。 


只 要 所 有 的 源 代 码 都 在 编译 时 刻 可 用 ， 我 们 就 可 以 使 用 另 一 种 方法 
来 解析 对 方法 名 字 m 的 使 用 。 然 后 ， 可 以 进行 过 程 间 分 析 ， 确 定 对 象 类 
型 。 如 果 变 量 x 的 类 型 是 唯一 的 ， 那 么 xmgO 的 使 用 就 可 以 被 解析 。 我 们 
明确 地 知道 在 这 个 上 下 文中 m 指 向 哪个 方法 。 在 这 种 情况 下 ， 我 们 可 以 
Ri 











12.2.2 ”指针 别名 分 析 


即使 我 们 不 想 执行 诸如 到 达 定 值 这 样 的 常见 数据 流 分 析 的 过 程 间 分 
析 版 本 ， 这 些 分 析 实际 上 也 可 以 从 过 程 间 指 针 分 析 中 获 益 。 第 9 章 给 出 
的 所 有 分 析 只 能 应 用 于 没有 别名 的 局 部 标量 变量 。 然 而 ， 指 针 的 使 用 是 
很 常见 的 ， 在 像 C 这 样 的 语言 中 尤其 如 此 。 如 果 知 道 多 个 指针 是 否 可 能 
互 为 别名 〔〈 即 可 能 指向 同一 个 位 置 )， 我 们 就 可 以 提高 第 9 章 中 介绍 的 
分 析 技术 的 精确 度 。 


I 考虑 下 面 的 三 个 语句 组 成 的 序列 ， 它 们 可 能 组 成 了 一 个 基本 








*p = 1; 
*q = 2; 
x = *p; 


如 宁 不 知道 p 和 qd 是 人 否 可 能 指 同 同 一 个 位 置 ， 也 就 是 将 ， 它 们 是 个 
能 互 为 别名 ， 那 么 就 不 能 确定 x 在 基本 块 的 结尾 处 等 于 1。 


12.2.3 ”并 行 化 





如 第 11 章 中 所 讨论 的 ， 将 一 个 应 用 并 行 化 的 最 有 效 方法 是 寻找 最 粗 
粒度 的 并 行 性 ， 例 如 在 一 个 程序 的 最 外 层 循环 中 找到 的 并 行 性 。 要 完成 
这 个 任务 ， 过 程 间 分 析 技 术 是 非常 重要 的 。 标 量 优化 “〈“ 即 基于 简单 变量 
的 值 的 优化 ， 比 如 第 9 章 中 讨论 的 技术 ) 和 并 行 化 之 间 有 很 大 的 不 同 。 
在 并 行 化 中 ， 一 个 可 疑 的 数据 依赖 关系 束 可 能 使 得 整个 循环 不 可 并 行 
化 ， 从 而 大 大 降低 优化 的 有 效 性 。 这 种 对 不 精确 性 的 放大 在 标量 优化 中 
是 看 不 到 的 。 在 标量 优化 中 ， 我 们 只 需要 找 出 大 部 分 优化 机 会 即 可 。 错 
过 一 两 个 机 会 并 不 会 引起 很 大 的 不 同 。 


12.2.4 软件 错误 和 漏洞 的 检测 





过 程 间 分 析 不 仅仅 对 优化 代码 很 重要 。 同 样 的 技术 也 可 以 用 于 分 析 
己 有 软件 ， 寻 找 各 种 编码 错误 。 这 些 错误 可 能 会 使 得 软件 变 得 不 可 靠 ， 
黑客 可 以 利用 这 些 错误 来 控制 或 毁坏 一 个 计算 机 系统 。 计 算 机 系统 的 代 
码 错误 可 能 引起 严重 的 安全 漏洞 。 


静态 分 析 可 以 用 于 检测 是 否 存 在 常见 的 多 种 错误 模式 。 比 如 ， 一 个 
数据 项 必须 用 一 个 锁 来 保护 。 男 一 个 例子 是 ， 在 操作 系统 中 屏蔽 一 个 中 
断后 必须 随后 重新 启用 这 个 中 断 。 这 类 错误 的 一 个 重要 源头 是 跨越 过 程 
边界 的 代码 之 间 的 不 一 致 性 ， 因 此 过 程 间 分 析 极 为 重要 。PREfix 和 
Metal 是 两 个 实用 的 工具 ， 它 们 有 效 地 使 用 过 程 间 分 析 技 术 在 大 型 程序 
中 寻找 多 种 程序 错误 。 这 类 工具 可 以 静态 地 找到 错误 ， 从 而 大 大 提高 软 
件 可 靠 性 。 但 是 ， 这 些 工 具 既 不 完全 也 不 健全 。 从 这 个 意义 上 说 ， 它 们 
不 能 找到 所 有 的 错误 ， 并 且 不 是 报告 的 所 有 警告 都 是 错误 。 踪 憾 的 是 ， 
它们 使 用 的 过 程 间 分 析 技 术 相 当地 不 精确 ， 如 果 让 这 些 工 具 报 告 所 有 可 
能 的 错误 ， 大 量 的 假 报警 会 使 得 工具 无 法 使 用 。 无 论 如 何 ， 虽 然 这 些 工 
| 
可 靠 性 。 


当 考 虑 安全 缺陷 时 ， 我 们 非常 期 望 找到 一 个 程序 中 所 有 可 能 的 错 
误 。 在 2006 年 ， 黑 客 使 用 的 两 个 “最 流行 ?的 威胁 系统 完全 的 入 侵 形 式 


日 
碟 : 























1) Web 应 用 中 输入 确认 机 制 的 缺失 : SQL 注入 是 这 种 攻击 最 流行 
的 形式 之 一 。 黑 客 们 利用 这 个 弱点 ， 通 过 操控 被 Web 应 用 接收 的 输入 来 
获取 对 数据 库 的 控制 。 


2) C 和 C++ 程序 中 的 缓冲 区 溢出 。 因 为 C 和 C++ 不 对 数组 访问 进行 
边界 检查 ， 黑 客 就 可 以 写 出 一 个 精心 构造 的 字符 串 ， 使 得 它 从 缓冲 区 中 
延伸 到 未 预料 到 的 区 域 ， 从 而 控制 这 个 程序 的 运行 。 


在 下 一 节 中 ， 我 们 将 讨论 如 何 使 用 过 程 间 分 析 技 术 来 保护 程 友 不 受 
这 样 的 攻击 。 








12.2.5 SQL 注入 


SQL 注 入 是 一 种 黑客 攻击 方法 。 黑 客 可 以 通过 操纵 一 个 Web 应 用 的 





用 户 输入 ， 从 而 获得 对 数据 库 的 未 授权 访问 。 比 如 ， 银 行 可 能 希望 只 要 
它 的 用 户 能 够 提供 正确 的 口令 ， 他 就 可 以 在 线 完成 业务 处 理 。 这 类 系统 
的 一 个 常用 体系 结构 是 让 用 户 在 一 个 web 表单 中 输入 字符 串 ， 然 后 把 这 
些 字符 串 组 成 某 个 用 SQL 语言 编写 的 数据 库 查 询 的 一 部 分 。 如 果 系 统 开 
发 者 不 小心 ， 用 户 提供 的 字符 串 可 能 以 不 可 预料 的 访 式 改变 这 个 SQL 语 
同 的 含义 。 


假设 一 个 银行 向 它 的 客户 提供 了 对 一 个 关系 
AcctData(name, password, balance) 

的 访问 。 也 就 是 说 ， 这 个 关系 是 一 个 由 多 个 三 元 组 组 成 的 表 ， 每 个 三 元 
组 包含 一 个 客户 的 名 字 、 账 户口 令 和 该 账户 的 余额 。 系 统 的 本 意 是 使 得 
客户 只 有 在 提供 了 他 们 的 名 字 和 正确 口令 之 后 才能 够 看 到 账户 余额 。 让 
一 个 黑客 看 到 账户 余额 并 不 是 可 能 发 生 的 最 糟糕 的 事情 ， 但 是 这 个 简单 
和 
十 账 。 

系统 可 以 按照 如 下 方式 实现 一 次 余额 查询 : 

1) 用 户 调用 一 个 web 表单 ， 在 表单 中 输入 他 们 的 名 字 和 口令 。 

2) 名 字 被 找 贝 到 一 个 变量 n， 口 令 被 拷贝 到 另 一 个 变量 p。 

3) 然后 ， 可 能 在 茶 些 其 他 过 程 中 ， 执 行 下 列 SQL 查 询 : 














SELECT balance FROM AcctData 
WHERE name = ’:n’ and password = ’:p’ 


我 们 癌 不 熟悉 SQL 的 读者 解释 一 下 这 个 查询 含义 。 该 语句 的 含义 
是 :“ 在 表 Acctpata 中 找 出 一 行 ， 要求 第 一 个 分 量 〈( 名 字 ) 等 于 变量 n 中 
的 当前 人 字符 串 ， 而 第 二 个 分 量 (口令 ) 等 于 变量 p 中 的 当前 字符 串 ; 然 
后 打印 这 一 行 的 第 三 个 分 量 (余额 。*” 请 注意 ， 这 个 SQL 语 句 使 用 了 
0 a 
言 的 变量 。 


假设 一 个 黑客 想 找 到 Charles Dickens 的 账户 余额 ， 他 向 pn 和 p 提 供 了 
下 面 的 值 : 











n= Charles Dickens’ -- p= who cares 


这 个 奇怪 的 字符 串 的 作用 是 把 上 面 的 查询 转变 成 


SELECT balance FROM AcctData 
WHERE name = ’Charles Dickens’ --’ and password = ’who cares’ 


在 很 多 数据 库 系统 中 ，-- 是 一 个 注释 引导 符号 ， 其 作用 是 把 该 行 中 
跟 在 其 后 的 所 有 内 容 看 作 一 个 注释 。 结 果 ， 现 在 这 个 查询 语句 要 求 数据 
库 系 统 打 印 出 每 个 名 字 为 'charles Dickens' 的 个 人 的 账户 余额 ， 而 不 考 
虑 在 name-password-balance 三 元 组 中 和 该 名 字 一 起 出 现 的 口令 。 也 就 是 
说 ， 删 除 注 释 之 后 ， 这 个 查询 变 成 了 : 


SELECT balance FROM AcctData 
WHERE name = ’Charles Dickens’ 


在 例子 12.10 中 ， 这 个 “ 坏 ” 字 符 串 被 保存 在 两 个 变量 中 ， 它 们 可 能 在 
过 程 之 间 传 递 。 但 是 ， 在 更 加 真实 的 情况 中 ， 这 些 字 符 串 可 能 被 多 次 复 
制 ， 或 者 和 其 他 字符 串 组 成 完整 的 查询 语句 。 如 果 我 们 不 对 整个 程序 进 
行 全 面 的 过 程 间 分 析 ， 就 不 能 指望 能 够 检测 到 导致 SQL 注入 攻击 的 代码 


背 误 。 








12.2.6” 绥 冲 区 洲 出 


当 一 个 由 用 户 提 供 的 精心 制作 的 数据 被 写 到 了 预想 的 缓冲 区 之 外 并 
操纵 程序 的 执行 时 ， 就 发 生 了 缓冲 区 溢出 攻击 (buffer overflow 
attack) 。 比 如 ， 一 个 C 程 序 可 能 从 用 户 那 里 读 取 一 个 字符 串 s， 然 后 使 
用 函数 调用 


strcpy(b,s); 


把 它 拷贝 到 一 个 缓冲 区 b 中 。 如 琳 字 符 串 s 实 际 上 比 缓冲 区 b 长 ， 那 么 在 

绥 冲 区 b 之 外 的 茶 些 内 存 位 置 上 的 值 将 会 被 改变 。 这 个 情况 本 吴 可 能 会 

使 程序 产生 故障 ， 或 者 至 少 产生 错误 的 答案 ， 因 为 程序 使 用 的 东 些 数据 
可 能 已 经 被 改变 了 。 


但 是 实际 情况 会 更 糟 薰 ， 选 择 字 符 串 s 的 黑客 可 以 选择 一 个 特别 的 








值 ， 使 得 它 的 作用 不 仅仅 是 引起 一 个 错误 。 比 如 ， 如 果 该 缓冲 区 位 于 一 
个 运行 时 刻 栈 中 ， 那 么 它 可 能 离 存 放 该 函数 的 返回 地 址 的 位 置 很 近 。 一 
个 经 过 精心 选择 的 恶意 的 s 值 可 以 履 盖 挥 这 个 地 址 ， 当 函数 返回 时 ， 它 
跳 转 到 黑客 选择 的 地 方 。 如 果 黑 客 熟 悉 操 作 系 统 和 人 硬件， 那么 他 们 惑 能 
够 执行 一 个 命令 ， 让 系统 赋予 他 们 控制 这 台 计 算 机 的 能 力 。 在 有 些 情况 
下 ， 他 们 甚至 可 以 有 能 力 让 那个 假 的 返回 地 址 把 控制 传递 到 作为 字符 串 
s 的 一 部 分 的 代码 中 ， 这 样 就 能 将 任何 种 类 的 程序 插入 到 正在 执行 的 代 





为 了 防止 缓冲 区 洲 出 ， 我 们 要 么 必须 通过 静态 的 方法 证 明 每 个 数组 
写 运算 都 处 于 边界 之 内 ， 要 么 必须 进行 适当 的 动态 数组 边界 检查 。 因 为 
在 C 和 C++ 程序 中 必须 手工 插入 这 些 边界 检查 ， 程 序 员 很 容易 乐 记 插入 
测试 代码 ， 或 者 插入 错误 的 测试 代码 。 人 们 已 经 开发 了 局 发 式 工具 来 检 
查 是 否 在 调用 一 个 strcpy 之 前 至 少 进行 了 茶 些 测试 ， 虽 然 这 些 测试 不 一 
定 是 正确 的 。 


动态 边界 检查 是 不 可 避免 的 ， 因 为 不 可 能 静态 地 确定 用 户 输入 的 大 
小 。 静 态 分 析 可 以 做 的 所 有 事情 就 是 保证 正确 地 插入 了 动态 检查 代码 。 
因此 ， 一 个 可 行 的 策略 是 让 编译 器 在 每 个 写 操作 上 插入 动态 边界 检查 ， 
并 以 静态 分 析 为 手段 尽 可 能 优化 抒 动 态 检查 代码 。 这 样 就 不 再 需要 去 捕 
人 
] 代 人 区 域 。 


即使 我 们 不 在 乎 运行 开销 ， 在 C 程 序 中 插入 边界 检查 也 不 是 容易 的 
事情 。 一 个 指针 可 能 指向 茶 个 数组 的 中 间 ， 而 且 我 们 还 不 知道 这 个 数组 
的 大 小 。 可 以 使 用 已 有 的 搁 术 来 动态 跟踪 各 个 指针 指向 的 缓冲 区 的 大 
小 。 这 个 信息 允许 编译 器 为 所 有 的 访问 都 插 入 数组 边界 测试 。 有 意思 的 
是 ， 我 们 并 不 建议 一 检测 到 缓冲 区 洲 出 就 停止 执行 程序 。 实 际 上 ， 实 践 
中 确实 会 发 生 缓冲 区 湾 出 ， 如 宁 我 们 不 允许 所 有 的 缓冲 区 洪 出 ， 一 个 程 
0 














可 以 利用 过 程 间 分 析 技 术 来 提高 动态 的 数组 边界 检查 的 速度 。 比 
如 ， 假 设 我 们 只 关注 和 用 户 输 入 字符 串 有 关 的 绥 冲 区 淤 出 ， 那 么 可 以 使 
用 静态 分 析 技 术 来 决定 哪个 变量 可 能 存放 了 用 户 提供 的 内 容 。 和 SQL 注 
入 一 样 ， 如 果 我 们 能 够 跟踪 一 个 输入 值 在 过 程 间 传 递 复制 的 过 程 ， 束 有 
利于 消除 不 必要 的 边界 检查 。 


12.3 ”数据 流 的 一 种 逻辑 表示 方式 


可 以 说 ， 到 现在 为 止 ， 我 们 对 数据 流 问 题 和 解答 的 表示 方法 是 基于 
集合 理论 的 。 也 就 是 说 ， 我 们 把 信息 表示 成 集合 ， 并 通过 交 、 并 这 样 的 
运算 来 计算 结果 。 比 如 ， 当 我 们 在 9.2.4 节 中 介绍 到 达 定 值 问 题 时 ， 我 们 
为 一 个 基本 块 B 计 算 IN [B] 和 OUT [B] ， 并 把 它们 描述 为 定 值 的 集 
合 。 我 们 用 基本 块 B 的 gen 和 kil 集 合 来 表示 这 个 基本 块 的 内 容 。 


为 了 应 对 过 程 间 分 析 的 复杂 性 ， 我 们 引入 一 个 更 加 通用 且 更 加 明确 
的 基于 逻辑 的 表示 方法 。 我 们 不 再 说 诸如 “ 定 值 D 在 IN LB] 中 ?这样 的 
叶 言 ， 而 是 使 用 类 似 于 in 〈B,D) 这 样 的 表示 方法 来 表示 同样 的 意思 。 
这 么 做 使 我 们 把 那些 用 以 推断 程序 性 质 的 简明 的 “规则 ”表示 出 来 。 它 也 
使 我 们 能 高 效 地 实现 这 些 规 则 ， 实 现 方法 是 对 集合 运算 的 位 向 量 方法 进 
行 推广 。 最 后 ， 包 辑 方法 使 我 们 能 把 几 个 看 起 来 不 一 样 的 分 析 合 并 成 为 
一 个 一 体 化 的 算法 。 比 如 ， 在 9.5 市 中 ， 我 们 用 四 个 数据 流 分 析 组 成 的 
序列 及 两 个 中 间 步 又 描述 了 部 分 元 余 消 除 方法 。 在 人 逻辑 表示 方法 中 ， 这 
些 步 又 可 以 被 合并 成 为 一 组 逻辑 规则 。 我 们 可 以 同时 求解 这 些 规则 。 

















12.3.1 Datalog 简 介 


Datalog 是 一 个 使 用 类 Prolog 表 示 方 法 的 语言 ， 但 是 它 的 语义 要 比 
Prolog 人 简单 得 多 。 首 先 ，Datalog 的 元 素 是 形 如 p 〈X1, X,, .…, X,) 的 原子 
(atom) ， 其 中 : 


1) p 是 一 个 断言 一 一 一 个 表示 了 一 类 语句 的 符号 ， 比 如 “一 个 定 值 
到 达 了 一 个 基本 块 的 开始 处 ”。 

2) X1、X,，、...、X 是 变量 或 常量 的 项 。 我 们 也 可 以 把 一 些 简单 表 
达 式 当 作 一 个 断言 的 参数 。 扣 

一 个 基础 原子 (ground atom) 是 一 个 其 参数 都 是 常量 的 断言 。 每 个 


基础 原子 表明 了 一 个 特定 的 事实 ， 筷 的 值 要 么 是 真 要 么 是 假 。 把 一 个 断 
言 表示 为 一 个 关系 〈 或 者 说 令 该 断言 取 真 值 的 基础 原子 的 表 ) 通常 比较 





























方便 。 每 个 基础 原子 表示 成 关系 的 一 行 ， 或 者 说 一 个 元 组 。 这 个 关系 的 
列 以 属性 命名 ， 对 于 每 个 属性 ， 每 个 元 组 都 有 一 个 对 应 的 分 量 。 这 些 属 
性 对 应 于 用 关系 方式 表示 的 基础 原子 的 分 量 。 在 该 关系 中 的 所 有 基础 原 
子 的 值 都 是 真 ， 不 在 此 关系 中 的 基础 原子 的 值 都 为 假 。 


我 们 假设 断言 In (B, D) 表示 “ 定 值 D 到 达 了 基本 块 B 的 开始 

”， 开 假设 对 于 特定 的 流 图 In (by, di) 为 真 且 im Cb, di) 和 in (b， 
d) 也 为 真 。 我 们 也 可 以 假设 对 于 这 个 流 图 而 言 ， 所 有 其 他 关于 in 的 描 
过 部 症候 的 。 半 么 图 12-12 中 的 关系 就 表示 了 对 应 于 这 个 流 图 的 此 车 




















图 12-12 使 用 一 个 关系 来 表示 一 个 断言 的 值 


这 个 关系 的 属性 为 B 和 D。 这 个 关系 有 三 个 元 组 ， 分 别 是 (bi, 
di) 、 (by,di) 和 (b,, dy) 。 


有 时 我 们 也 会 看 到 一 个 实际 上 是 变量 及 常量 之 间 的 比较 运算 的 原 
子 。 比 如 Xzx*Y 或 者 X=10。 在 这 些 例子 中 ， 断 言 实际 上 是 比较 运算 符 。 
也 就 是 说 ， 我 们 可 以 把 X=10 看 作 它 的 断言 形式 : equals (X, 10) 。 但 是 
比较 断言 和 其 他 断言 有 一 个 最 大 的 不 同 之 处 。 一 个 比较 断言 有 它 的 标准 
Le We 将 在 下 面 描 
述 ) 定义 的 。 


字面 值 〈literal) 是 一 个 原子 或 其 否定 形式 。 我 们 在 一 个 原子 前 加 
NOT 来 表示 和 否定。 因此 ，NoT in(B, D) 是 一 个 断言 ， 表 示 定 值 D 不 能 到 
达 基 本 块 B 的 开始 处 。 








12.3.2 ”Datalog 规 则 


规则 是 表示 逻辑 推理 关系 的 一 种 方法 。 在 Datalog 中 ， 规 则 也 说 明了 
如 何 完成 对 正确 的 事实 的 计算 。 一 个 规则 的 形式 为 : 


H: 一 Bi1&B,&. 。 .SPB， 
其 中 的 组 成 部 分 如 下 : 
H 和 Bi1, B,, .….、Bn 是 字面 值 ， 即 原子 或 原子 的 否定 形式 。 但 H 不 能 


是 否定 形式 。 
H 是 规则 的 共 ，B1、B，、...、B, 组 成 了 规则 的 体 。 
每 个 Bi 有 时 被 称 为 规则 的 子 目 标 〈subgoal) 。 


我 们 应 该 把 符号 : - 读 作 “ 如 果 ”。 一 个 规则 的 含义 是 “如 果 规 则 体 为 
真 ， 那 么 规则 头 也 为 真 ”。 更 精确 地 说 ， 我 们 按照 下 面 的 方法 把 规则 应 
用 到 一 组 给 定 的 基础 原子 集合 上 。 考 虑 所 有 可 能 把 规则 中 的 变量 符 代 为 
常量 的 蔡 换 方法 。 如 果 东 个 答 换 方 法 使 得 规则 体 的 每 个 子 目 标 都 为 真 
(假设 所 有 且 只 有 给 定 的 基础 原子 为 真 )， 那 么 我 们 可 以 推断 ， 按 照 这 
个 蔡 换 方法 把 规则 关中 的 变量 蔡 换 为 常量 之 后 得 到 的 断言 为 真 。 不 能 使 
所 有 子 目 标 都 为 真 的 答 换 方法 没有 给 我 们 任何 信息 ， 蔡 换 后 的 规则 头 可 
能 为 真 也 可 能 为 假 。 


一 个 Datalog 程 序 是 一 组 规则 的 集合 。 这 个 程序 被 应 用 于 一 组 “ 数 
据 *"， 即 某 些 断 言 的 基础 原子 集合 。 这 个 程序 的 结果 也 是 一 组 基础 原子 
的 集合 ， 这 个 集合 通过 应 用 程序 中 的 规则 推断 得 到 。 程 序 将 不 断 应 用 其 
中 的 规则 ， 直 到 不 能 推断 出 新 的 基础 原子 为 止 。 


一 个 Datalog 程 序 的 简单 例子 是 给 定 一 个 图 的 (有 问 ) 边 ， 计 
这 个 多 的 路 径 。 也 就 是 说 ， 断 言 edge (X, Y) 表示 “有 一 条 从 结 点 X 到 
Y 的 边 ” 断言 path 〈(X,Y) 表示 从 X 到 Y 有 一 条 路 径 。 定 义 路 径 的 规则 


























日 
XE 


1) path (X,Y) : -edge (X,Y) 


2) path (X,Y) : -path〈X,Z) & path (Z,Y) 


第 一 个 规则 是 说 一 条 边 就 是 一 条 路 径 。 也 就 是 说 ， 只 要 我 们 把 变量 
X 蔡 换 为 一 个 第 量 a 且 把 变量 Y 丛 换 为 一 个 常量 bp， 并 且 edge 〈a, b) 为 其 
《 即 有 一 条 从 结 点 a 到 结 点 b 的 边 ) ， 那 么 path (a, b) 也 成 立即 有 一 条 
从 a 到 b 的 路 径 ) 。 第 二 个 规则 是 说 如 果 有 一 条 从 某 个 结 点 X 到 某 个 结 点 
Z 的 路 径 ， 并 且 还 有 一 条 路 径 从 Z 到 结 氮 Y， 那 么 存在 一 条 从 X 到 Y 的 路 
径 。 这 个 规则 表示 “传递 封闭 性 ”。 请 注意 ， 任 何 路 径 都 可 以 通过 选取 路 
径 上 的 边 并 不 断 应 用 传递 封闭 性 规则 得 到 。 


比如 ， 假 设 下 列 事实 (基础 原子 ) 为 真 : edge (1,2) 、edge 〈2， 
3) 和 edge (3, 4) 。 那 么 ， 我 们 可 以 使 用 第 一 个 规则 进行 三 次 不 同 的 蔡 
换 ， 推 断 出 path (1, 2) 、path (2, 3) 和 path (3, 4) 。 例 如 ， 按 照 X=1 
和 Y=2 进 行 蔡 换 可 以 得 到 第 一 个 规则 的 实例 path (1, 2) : -edge (1, 
2) 。 因 为 edge (1, 2) 为 真 ， 所 以 可 以 推导 出 path (1, 2) 。 


根据 这 三 个 关于 path 的 事实 ， 我 们 可 以 多 次 使 用 第 二 个 规则 。 如 果 
按照 X=1、Z=2 和 Y=3 进 行 蔡 换 ， 我 们 可 以 得 到 这 个 规则 的 实例 path 〈1， 
3) : -path (1, 2) &path (2,3) 。 因 为 规则 体 中 的 两 个 子 目标 都 已 经 
推导 出 来 ， 已 知 它们 为 真 ， 所 以 可 以 推出 规则 头 : path (1 3) 。 然 
后 ， 使 用 替换 方法 X=1、Y=2 和 Z=4 推 出 规则 头 path (1, 4) 。 也 就 是 
说 ， 从 结 点 1 到 结 点 4 有 一 条 路 径 。 











Datalog 的 编码 规则 
我 们 将 在 Datalog 程 序 中 使 用 如 下 编码 规则 : 


1) 变量 以 大 写字 符 开 头 。 


2) 所 有 的 其 他 元 系 以 小 写字 符 或 其 他 符号 《比如 数字 ) 开头 。 
这 些 元 素 包 括 断 言 和 用 作 断 言 参 数 的 常量 。 





12.3.3 内涵 断 言 和 外 延 断 言 


按照 Datalog 程 序 的 惯例 ， 我 们 把 断言 分 成 两 类 : 


1) EDB 断 言 ， 或 者 说 外 延 数 据 库 (extensional database) 断 
言 ， 是 事先 定义 的 断言 。 也 就 是 说 ， 它 们 的 真 值 事 实 要 么 通过 一 个 关系 
或 表 给 出 ， 要 么 根据 断言 的 含义 给 出 (比如 一 个 比较 断言 的 情况 〉。 


2) IDB 断 言 ， 或 者 说 内 涵 5 数 据 库 (intensional database) 断言， 只 
能 通过 规则 定义 。 











一 个 断言 要 么 是 IDB， 要 么 是 EDB， 且 只 能 是 其 中 之 一 。 这 个 规定 
的 结果 是 ， 任 何 出 现在 一 个 或 多 个 规则 头 中 的 断言 必然 是 一 个 IDB 断 
言 。 出 现在 规则 体 中 的 断言 可 以 是 IDB， 也 可 以 是 EDB。 比 如 ， 在 例子 
12.12 中 ，edge 是 一 个 EDB 断 言 ，path 是 一 个 IDB 断 言 。 回 忆 一 下 ， 我 们 
给 出 了 一 些 关 于 edge 的 事实 ， 比 如 edge (1, 2) ， 但 是 所 有 的 path 事 实 都 
是 通过 规则 推导 出 来 的 。 


当 Datalog 程 序 用 于 表示 数据 流 算法 时 ， 其 中 的 EDB 上 断言 是 根据 流 岁 
本 身 计 算得 到 的 。IDB 断 言 被 表示 成 规则 ， 而 数据 流 问 题 的 解决 方法 束 
征 根据 这 些 规 则 和 给 定 的 EDB 事 实 中 推导 出 所 有 可 能 的 IDB 事 实 。 


我 们 考虑 可 以 如 们 在 patalog 中 表示 到 达 汗 信 问 题 。 首 先 

在 语句 层次 上 〔〈 而 不 是 在 基本 块 层次 上 ) 考虑 问题 是 有 道理 的 。 也 就 是 
说 ， 从 一 个 基本 块 构造 它 的 gen 和 kill 集 合 的 计算 过 程 将 会 和 到 达 定 值 本 
身 的 计算 集成 在 一 起 。 因 此 ， 图 12-13 中 给 出 的 基本 块 bj 是 很 典型 的 。 

请 注意 ， 如 果 一 个 基本 块 内 有 n 个 语句 ， 那 么 我 们 用 编号 1，2，...，n 来 
标记 块 内 的 程序 点 。 第 i 个 定 值 在 第 i 点 上 出 现 ， 而 在 0 点 上 没有 定 值 出 

现 。 

















图 12-13 ”一 个 语句 中 包含 指针 的 基本 块 


程序 中 的 一 个 点 可 以 表示 为 一 个 二 元 组 〈b,n) ， 其 中 b 是 一 个 基本 
块 ， 而 n 是 0 到 基本 块 b 内 的 语句 数量 之 间 的 一 个 整数 。 我 们 的 表示 方法 





需要 两 个 EDB 断 言 : 


1) def (B, N,X) 为 真 当 且 仅 当 基本 块 B 中 的 第 N 个 语句 可 以 对 变 
量 X 定 值 。 比 如 ， 在 图 12-13 中 ，def (bj, 1, x) 为 真 ，def (bi, 3, x) 为 
真 且 def (bj, 2,Y) 对 所 有 可 能 在 这 个 点 上 被 指针 p 指 向 的 变量 Y 都 为 
真 。 现 在 我 们 将 假设 Y 可 以 是 任何 具有 p 上 所 指 类 型 的 变量 。 


2) succ(B, N, C) 为 真 当 且 仅 当 在 流 图 中 基本 块 C 是 基本 块 B 的 后 
继 ， 且 B 有 具有 N 个 语句 。 也 就 是 说 ， 控 制 流 可 以 从 B 的 点 N 到 达 C 的 点 0。 
比如 ， 假 设 b, 是 图 12-13 中 基本 块 b; 的 前 驱 ， 且 b, 具 有 5 个 语句 ， 那 么 
succ (b,, 5, b1) 为 真 。 














这 个 Datalog 程 序 有 一 个 IDB 上 断言 rd (B, N, C, M X) 。 这 个 断言 为 
真 当 且 仅 当 在 基本 块 C 上 的 第 M 个 语句 中 对 变量 X 的 定 值 到 达 了 基本 块 B 
的 点 N。 定 义 断 言 rd 的 规则 在 图 12-14 中 显示 。 











rd(B,N,B,N,X) :- def(B,N,X) 


rd(B,N,C,M,X) :- rd(B,N -1,C,M,X)& 
def(B, N,Y) & 
XAzY 


rd(B,0,C,M,X) : rd(D,N,C,M,X)& 
succ(D, N,B) 





图 12-14 ”断言 rd 的 规则 集合 


规则 1 说 明 ， 如 果 基 本 块 B 的 第 N 个 语句 对 X 定 值 ， 那 么 X 的 这 个 定 
值 到 达 B 的 第 N 个 点 〈 即 紧 跟 在 这 个 语句 之 后 的 点 )。 我 们 前 面 给 出 了 
到 达 定 值 问 题 的 集合 理论 表示 方法 ， 而 这 个 规则 对 应 于 该 表示 方法 中 的 
概念 gen。 


规则 2 表示 除非 一 个 定 值 被 傈 个 语句 杀 死 ， 人 否则 它 可 以 穿越 这 个 语 
人 句 。 而 杀 死 一 个 定 值 的 唯一 方法 是 100% 肯 定 地 对 其 中 的 变量 重新 定 
值 。 详 细 地 说 ， 规 则 2 说 明 来 自 基 本 块 C 中 的 第 M 个 语句 的 对 变量 X 的 定 
值 到 达 基 本 块 B 中 的 点 N 的 条 件 是 








1) 它 到 达 了 前 一 个 结 点 ， 即 B 中 的 点 N-1。 


2) 同时 至 少 有 一 个 不 同 于 X 的 变量 Y 可 能 在 B 的 第 N 个 语句 中 定 





最 后 ， 规 则 3 表示 了 流 图 的 控制 流 。 它 说 基本 块 C 中 第 M 个 语句 中 对 
X 的 定 值 到 达 基 本 块 B 的 第 0 点 的 条 件 是 存在 某 个 具有 N 个 语句 的 基本 块 
D， 使 得 这 个 对 X 的 定 值 到 达 D 的 结尾 处 ， 并 且 B 是 D 的 一 个 后 继 。 


例 12.13 中 的 EDB 断 言 succ 显 然 可 以 从 流 图 中 获得 。 如 果 我 们 保守 地 
估计 一 个 指针 可 能 指向 任何 地 方 ， 那 么 可 以 从 流 图 中 得 到 def 汤 言 。 如 
果 我 们 希望 把 一 个 指针 所 指 同 的 范围 限定 在 具有 适当 类 型 的 变量 中 ， 那 
么 我 们 可 以 从 符号 表 中 获取 类 型 信息 ， 从 而 使 用 一 个 较 小 的 关系 def。 
另 一 种 可 选 的 方法 是 把 def 变 成 一 个 IDB 断 言 ， 并 通过 规则 来 定义 它 。 这 
些 规 则 将 使 用 更 基本 EDB 断 言 ， 而 这 些 断 言 本 身 可 以 从 流 图 和 符号 表 中 


获得 。 
假设 我 们 引入 两 个 新 的 EDB 断 言 : 


1) assign〈B, N, X) 为 真 当 且 仅 当 基 本 块 B 的 第 N 个 语句 的 左 部 为 
X。 请 注意 ，X 可 以 是 一 个 变量 ， 也 可 以 是 一 个 具有 左 值 的 简 *p。 


2) 如 果 X 的 类 型 为 T， 那 么 type 〈X,T) 为 真 。 同 样 ，X 可 以 是 具有 
左 值 的 任意 表达 式 ， 而 T 可 以 是 任何 合法 的 类 型 表达 式 。 


然后 ， 我 们 就 可 以 写 出 def 的 规则 ， 使 得 def 成 为 一 个 IDB 断 言 。 图 
12-15 是 对 图 12-14 的 一 个 扩展 ， 它 增加 了 两 个 def 的 可 能 规则 。 规 则 4 说 
明 ， 如 果 基 本 块 B 的 第 N 个 语句 对 X 赋 值 ， 那 么 这 个 语句 就 对 X 定 值 。 规 
则 5 说 明 ， 如 果 基 本 块 B 的 第 N 个 语句 对 *P 赋 值 ， 且 X 是 具有 P 所 指 类 型 
的 任何 变量 ， 那 么 这 个 语句 也 可 能 对 X 定 值 。 其 他 类 型 的 赋值 语句 需要 
其 他 的 def 规 则 。 
































rd(B,N,B,N,X) :- def(B,N,X) 
rd(B,N,C, M,X) :- rd(B,N -1,0,M,X)& 
def(B, N,Y) & 
XzY 


rd(B,0,C, M,X) :- rd(D,N,C,M,X)& 
succ(D, N,B) 


def(B,N,X) : assign(B,N,X) 


deflB,N,X) :- assign(B,N,*P)& 
type(X,T)& 
type(P, * 了 ) 





图 12-15 ”断言 rd 和 def 的 规则 


现在 举例 说 明 如 何 使 用 图 12-15 中 的 规则 进行 推导 。 让 我 们 重新 考 
虑 图 12-13 中 的 基本 块 bi。 第 一 个 语句 把 一 个 值 赋 给 变量 x， 因 此 事实 
assign (bi, 1, x) 出 现在 EDB 中 。 第 三 个 语句 也 对 x 赋 值 ， 因 此 
assign (bj, 3, X) 也 是 一 个 EDB 事 实 。 第 二 个 语句 通过 p 间 接 赋值 ， 因 此 
第 三 个 EDB 事 实 是 assign (bj, 2, *p) 。 规 则 4 允许 我 们 推导 出 def (bj, 1， 
x) 和 def (bi, 3,X) 。 





假设 p 的 类 型 是 指向 整数 的 指针 〈*int) ， 且 x 和 y 都 是 整数 。 那 么 我 
们 可 以 使 用 规则 5， 令 B=bj，N=2，P=p，T=int， 且 X 等 于 x 或 y， 推 导 得 
到 def (bj, 2,x) 和 def (bj, 2,y) 。 类 似 地 ， 我 们 可 以 对 其 他 类 型 为 整 
数 或 可 转变 为 整数 的 变量 推导 出 同样 的 结果 。 


12.3.4 Datalog 程 序 的 执行 





每 一 组 Datalog 规 则 都 定义 了 它 的 IDB 断 言 的 关系 。 这 些 关 系 是 程序 
中 的 EDB 断 言 关 系 表 的 函数 。 开 始 时 假设 IDB 关 系 为 空 〈 即 对 于 所 有 可 


能 的 参数 ， 各 个 IDB 断 言 为 假 ) 。 然 后 重复 应 用 这 些 规则 ， 根 据 这 些 规 
则 不 断 推 导出 新 的 事实 。 当 推导 过 程 收敛 时 ， 就 完成 了 程序 的 运行 。 运 
行 得 到 的 IDB 关 系 环形 成 了 程序 的 输出 。 这 个 过 程 将 在 下 面 的 算法 中 正 
式 给 出 。 这 个 算法 和 第 9 章 中 讨论 的 迭代 算法 类 似 。 


Datalog 程 序 的 简单 求人 
输入 : 一 个 Datalog 程 序 和 各 个 EDB 上 断言 的 事实 集合 。 
输出 : 每 个 IDB 上 断言 的 事实 集合 。 


方法 : 对 于 程序 中 的 每 个 断言 p， 令 Rp 为 使 该 断言 为 大 的 事实 关 
系 。 如 果 p 是 一 个 EDB 断 言 ， 那 么 R 就 是 该 断言 给 出 的 所 有 事实 。 如 果 p 
是 一 个 IDB 断 言 ， 我 们 将 计算 Rh。 执 行 图 12-16 中 的 算法 。 




















for (2 的 每 个 断言 IDB ) 
Rp 1; 
while (改变 了 任何 已 的 值 ) { 
考虑 所 有 可 能 的 对 各 个 规则 中 的 变量 进行 常量 
替换 的 方法 ; 


对 于 每 个 替换 方法 ,使 用 当前 的 RR, 来 确定 EDB 和 IDB 断 言 
的 真 假 值 ， 确定 是 否 某 个 规则 体 的 所 有 子 目 标 都 为 真 ; 
if ( 某 个 赫 换 方法 使 得 一 个 规则 的 规则 体 为 真 ) 
设 规 则 的 头 断 言 为 9， 将 替换 后 的 头 加 入 到 RR 中 。 





图 12-16 ”Datalog 程 序 的 求 值 


例 12.12 中 的 程序 计算 一 个 图 中 的 路 径 。 应 用 算法 12.15 时 ， 最 
人 EDB 阴 言 edge 保 存 了 该 图 的 所 有 边 ， 而 path 的 关系 为 空 。 第 一 轮 的 时 
候 ， 规 则 2 没有 产生 任何 结果 ， 因 为 此 时 还 没有 path 的 事实 。 但 是 规则 1 
使 得 所 有 的 edge 事 实 都 变 成 了 path 事 实 。 也 就 是 说 ， 在 第 一 轮 过 后 ， 我 
们 知道 path 〈a,b) 成 立 当 且 仅 当 有 一 条 从 a 到 b 的 边 。 


在 第 二 轮 中 ， 规 则 1 没有 生成 新 的 path 事 实 ， 因 为 EDB 关 系 edge 没 有 
改变 。 但 是 ， 现 在 规则 2 令 我 们 把 两 个 长 度 为 1 的 路 径 连接 到 一 起 生成 一 
个 长 度 为 2 的 路 径 。 也 就 是 说 ， 在 第 二 轮 之 后 ，path 〈a,b) 为 真 当 且 仅 
当 从 a 到 b 有 一 条 长 度 为 1 或 2 的 路 径 。 类 似 地 ， 在 第 三 轮 中 ， 我 们 可 以 把 








长 度 不 大 于 2 的 路 径 连接 起 来 找到 所 有 长 度 不 大 于 4 的 路 径 。 在 第 四 轮 ， 
我 们 发 现 最 大 长 度 为 8 的 路 径 ， 并 且 一 般 来 说 ， 在 第 i 轮 之 后 ，path 〈a， 
b) 为 真 当 且 仅 当 有 一 个 从 a 到 b 且 长 度 不 大 于 2 的 路 径 。 














12.3.5 ”Datalog 程 序 的 增 量 计算 


有 一 个 可 行 的 方法 可 以 提高 算法 12.15 的 效率 。 请 注意 ， 一 个 新 的 
IDB 事 实 只 能 在 第 i 轮 被 发 现 的 条 件 如 下 : 它 是 对 某 一 个 规则 进行 营 量 蔡 
换 后 的 结果 ， 并 且 其 中 至 少 有 一 个 子 目 标 经 过 变换 变 成 刚刚 在 第 i-1 轮 发 
现 的 新 事实 。 这 个 论断 的 证 明 如 下 : 如 果子 目标 中 的 所 有 事实 在 第 i-2 轮 
的 时 候 都 是 已 知 的 ， 那 么 这 个 “新 ”的 事实 应 该 在 第 i-1 轮 进行 同样 的 常量 
蔡 换 时 就 已 经 被 发 现 了 。 

为 了 利用 这 个 性 质 ， 我 们 为 每 个 IDB 断 言 p 引 入 一 个 断言 newP， 访 
断言 只 对 上 一 轮 中 新 发 现 的 p 事 实 成 立 。 每 一 个 在 其 子 目 标 中 包含 了 一 
个 或 多 个 IDB 的 规则 都 被 蔡 换 为 一 组 规则 。 这 组 规则 中 的 每 一 个 都 是 通 
过 把 原来 规则 体 中 的 某 一 个 IDB 断 言 q 奉 换 为 newQ 而 得 到 的 。 最 后 ， 对 
于 所 有 的 规则 ， 我 们 把 规则 头 的 断言 h 蔡 换 为 newH。 人 得 到 的 这 些 规 则 被 
称 为 具有 增 量 式 形式 (incremental form) 。 


像 算法 12.15 那 样 ， 对 应 于 每 个 IDB 断 言 p 的 关系 累积 了 所 有 的 p 的 事 
实 。 在 每 一 轮 中 ， 我 们 


1) 应 用 新 的 规则 对 newP 断 言 求 值 。 

2) 然后 从 newP 中 减 去 p， 保 证 newP 中 的 事实 确实 是 新 的 。 

3) 把 这 些 newP 的 事实 加 入 到 p 中 。 

4) 把 所 有 newX 关 系 表 设置 为 空 ， 准 备 进行 下 一 轮 计算 。 
人 在 此 之 前 ， 我 们 将 先 给 出 一 


再 次 考虑 例子 12.12 中 的 Datalog 程 序 。 该 程序 的 规则 的 增 量 形 
式 在 你 12-17 中 给 出 。 规 则 1 的 规则 体 中 没有 IDB 子 目标 ， 因 此 除了 规则 

















头 之 外 没有 任何 改变 。 但 是 规则 2 中 有 两 个 IDB 子 目标 ， 因 此 它 变 成 了 
两 个 不 同 的 规则 。 在 每 个 规则 中 ，path 在 规则 体 中 的 茶 次 出 现 被 蔡 换 为 
newPath。 这 两 个 规则 合 起 来 保证 了 上 面 描述 的 思想 得 以 实施 ， 即 根据 
规则 连接 起 来 的 两 条 路 径 中 至 少 有 一 条 是 在 上 一 轮 中 发 现 的 。 








newPath(X,Y) :- edge(X,Y) 


newPath(X,Y) :- path(X,Z)& 
newPath(Z,Y) 


newPath(X,Y) :- newPath(X,Z)& 
path(2Z,Y) 





图 12-17 Datalog 程 序 path 的 增 量 式 规 则 
Datalog 程 序 的 增 量 求 值 。 
输入 : 一 个 Datalog 程 序 和 各 个 EDB 上 断言 的 事实 集合 。 
输出 : 各 个 IDB 断 言 的 事实 集合 。 


方法 : 对 于 程序 中 的 每 个 断言 p， 令 Rp 表 示 使 此 断言 为 真 的 事实 的 
关系 。 如 果 p 是 一 个 EDB 断 言 ， 那 么 Rv 就 是 该 断言 对 应 的 事实 集合 。 如 
果 p 是 一 个 IDB 断 言 ， 我 们 将 计算 得 到 Rb。 另 外， 对 于 每 个 IDB 断 言 p， 
令 Rnewp 为 对 应 于 断言 p 的 "新 "事实 的 关系 。 

1) 把 程序 的 规则 修改 为 上 面 描述 的 增 量 形式 。 


2) 执行 图 12-18 中 的 算法 。 











for (每 个 [DB 断言 P?) { 


repeat { 
考虑 对 所 有 规则 中 的 变量 的 所 有 常量 替换 方案 ; 
对 每 个 替换 方案 ,利用 玉 和 Rewp 来 决定 各 个 
EDB 和 IDB 断言 的 真 假 , 从 而 确定 是 否 有 某 个 
规则 体 的 所 有 子 目 标 都 为 真 ; 
站 ( 茶 个 替换 方案 使 得 一 个 规则 的 规则 体 为 真 ) 
把 禁 换 后 的 该 规则 的 头 加 入 到 有 Rew 中 ,其 中 
凡是 该 规则 的 头 的 断言 ; 
for (每 个 断言 p) { 
RneipP 二 Rnewp Ry; 
Ry = Rp U Rnewp; 


} 
} until (所 有 Rnewp 都 为 空 bE 





图 12-18 ”Datalog 程 序 的 求 值 


集合 表示 法 的 增 量 求 值 


以 增 量 的 方式 来 解决 基于 集合 理论 的 数据 流 问 题 也 是 可 行 的 。 比 
如 ， 在 到 达 定 值 问题 中 ， 只 有 妆 一 个 定 值 刚 被 友 现 在 基本 块 B 的 前 驱 





p 的 OUT [Pj」 中 时 ， 这 个 定 值 才能 够 在 本 次 计算 中 出 现在 IN [B] 

中 。 我 们 之 所 以 没有 尝试 以 增 量 的 方式 来 解决 这 样 的 数据 流 问 题 ， 因 
为 位 问 量 的 实现 方式 已 经 非常 蜗 效 了 。 一 般 来 说 ， 和 直接 计算 整个 向量 
要 比 决 定 一 个 事实 是 否 为 新 事实 更 加 容易 。 














12.3.6 ”有 问题 的 Datalog 规 则 


有 些 Datalog 规 则 ， 或 者 说 程序 ， 在 技术 上 没有 任何 意义 ， 因 此 不 应 
该 使 用 。 两 种 最 严重 的 风险 是 : 


1) 不 安全 规则 : 这 些 规 则 的 头 中 有 一 个 变量 没有 以 适当 的 方法 出 





现在 规则 体 中 。 正 确 的 方法 必须 限定 这 个 变量 只 能 取 那 些 出 现在 EDB 中 
的 值 。 





2) 不 可 分 层 的 程序 : 一 组 规则 之 间 存 在 涉及 否定 形式 的 循环 定 
Xs 

我 们 将 详细 讨论 这 两 个 风险 。 

安全 规则 

出 现在 某 个 规则 头 的 任何 变量 都 必须 出 现在 规则 体 中 。 不 仅 如 此 ， 
这 个 变量 所 在 的 子 目 标 必 须 是 一 个 普通 IDB 或 EDB 原 子 。 我 们 不 能 接受 


一 个 变量 只 出 现在 一 个 否定 原子 中 或 比较 运算 符 中 的 情况 。 制 定 这 个 渍 
略 是 为 了 避免 那些 可 能 使 我 们 推导 出 无 穷 多 个 事实 的 规则 。 


规则 


p (X,Y) : -qd (Z) &NOTr (X) & XzY 


是 不 安全 的 。 原 因 有 两 个 : 变量 X 只 出 现在 否定 的 子 目 标 r (X) 和 比较 
表达 式 XzY 中 ; Y 只 出 现在 比较 式 中 。 结 果 是 只 要 r(X) 为 假 且 Y 不 同 
于 多，p 对 于 无 穷 多 个 二 元 组 (X, Y) 为 真 。 


可 分 层 的 Datalog 程 序 


为 了 让 一 个 程序 有 意义 ， 递 归 定 义 和 否 定形 式 必 须 分 开 。 正 式 要 求 
如 下 。 我 们 必须 能 够 把 IDB 断 言 分 割 成 为 多 个 层次 〈strata) ， 使 得 如 果 
存在 一 个 规则 ， 其 头 断 言 为 p 且 有 一 个 形 如 NoTdq〈…) 的 子 目 标 ， 那 么 q 
要 么 是 一 个 EDB， 要 人 么 是 一 个 层次 低 于 p 的 IDB 断 言 。 只 要 满足 这 个 规 
则 ， 我 们 就 可 以 用 算法 12.15 或 算法 12.18 从 低 到 高 地 对 各 个 层次 求 值 。 
首先 处 理 处 理 较 低层 次 的 IDB， 在 处 理 较 高 层次 时 把 低层 次 上 的 IDB 当 
作 EDB。 但 是 ， 如 末 我 们 违反 了 这 个 规则 ， 那 么 如 下 面 的 例子 所 示 ， 达 
代 算 法 可 能 无 法 收敛 。 


考虑 下 面 的 由 单个 规则 构成 的 Datalog 程 序 : 
p (X) : -e (X) & NOTp (X) 


假设 e 是 一 个 EDB 上 断言， 并且 只 有 e (1) 为 真 。 那 么 p (1) 为 真 吗 ? 




















这 个 程序 是 不 可 分 层 的 。 不 管 我 们 把 p 放 在 哪 一 层 ， 它 的 规则 中 有 
一 个 子 目 标 是 某 个 IDB 〈 即 p 本 身 ) 的 否定 形式 ， 且 这 个 IDB 〈 即 p) 所 
在 的 层次 当然 不 会 比 p 的 层次 更 低 。 


如 果 我 们 应 用 上 面 的 迭代 算法 ， 我 们 从 R, =1 开始， 因此 开始 时 的 
答案 是 “不 ; p (1) 不 为 真 。” 但 是 ， 因 为 e (1) 和 NoTP (1) 都 为 真 ， 
所 以 第 一 次 迭代 时 推导 出 p (1) 。 但 是 ， 之 后 的 第 二 次 迭代 告诉 我 们 
p〈(1) 为 假 。 也 就 是 说 ， 在 这 个 规则 中 ， 把 X 蔡 换 为 1 不 会 令 我 们 推导 
出 p (1) ， 因 为 子 目 标 NoTp 〈1) 为 假 。 类 似 地 ， 第 三 次 迭代 说 p (1) 
为 真 ， 第 四 次 迭代 说 它 是 假 ， 如 此 往复 。 我 们 断定 这 个 不 可 分 层 的 程序 
是 无 意义 的 ， 也 不 能 把 它 看 作 一 个 正确 的 程序 。 








123.7， 153 的 图 习 


! 练习 12.3.1: 在 这 个 问题 中 ， 我 们 将 考虑 一 个 比例 子 12.13 人 简单 的 
到 达 定 值 数 据 流 分 析 问 题 。 假 设 每 个 语句 本 身 就 是 一 个 基本 块 ， 并 且 一 
开始 的 时 候 假设 每 个 语句 对 且 只 对 一 个 变量 定 值 。EDB 上 断言 pred (1, J) 
表示 语句 I 是 语句 J 的 一 个 前 驱 。EDB 断 言 defines (1, X) 表示 语句 I 所 定 
值 的 变量 为 X。 我 们 将 使 用 IDB 断 言 m (ID) 和 out (1, D) 分 别 表 示 定 
值 D 到 达 语 名 I 的 开头 和 结尾 。 请 注意 ， 一 个 定 值 实 际 上 是 一 个 语句 的 编 
号 。 图 12-19 是 一 个 Datalog 程 序 ， 它 表示 计算 到 达 定 值 的 利用 算法 。 


请 注意 ， 规 则 1 是 说 明 一 个 语句 杀 死 了 它 目 己 ， 但 是 规则 2 保证 一 个 
语句 总 是 在 它 目 己 的 输出 集合 中 。 规 则 3 是 普通 的 传递 函数 。 因 为 I 可 以 
有 多 个 前 驱 ， 所 以 规则 4 表示 了 交汇 运算 的 情况 。 


你 要 解决 的 问题 是 修改 这 些 规则 来 处 理 常 见 的 二 义 性 定义 的 情况 ， 
比如 通过 一 个 指针 进行 赋值 运算 。 在 这 种 情况 下 ，defines (I, 又) 对 多 
个 不 同 的 X 和 一 个 I 成 并 。 一 个 定 值 最 好 表示 为 一 个 二 元 组 (D, X) ， 其 
中 D 是 一 个 语句 ，X 是 一 个 可 能 被 D 定 值 的 变量 。 这 样 做 的 结果 是 ，in 和 
out 变 成 了 带 有 三 个 参数 的 断言 。 例 如 ，in 〈L D,X) 表示 在 语句 D 上 对 
X 的 《可 能 的 ) 定 值 到 达 了 语句 I 的 开始 处 。 


练习 12.3.2: 编写 一 个 和 图 12-19 类 似 的 Datalog 程 序 来 计算 可 用 表达 
式 。 除 了 上 断言 defines 之 外 ， 再 加 上 一 个 断言 eval (I X O, Y) 。 这 个 断 
言说 明 语 句 I 使 得 表达 式 X OY 被 求 值 。 这 里 O 是 表达 式 中 的 运算 符 ， 例 























练习 12.3.3: 编写 一 个 和 图 12-19 类 似 的 Datalog 程 序 来 计算 活跃 变 
量 。 除 了 断言 defines 之 外 ， 假 设 一 个 断言 use (1, X) 表示 语句 I 使 用 了 变 
量 X。 


mu BY) 3 defines(I, X) & defines(D,X) 


Out(1 14) 3: defines(I,X) 
out(lI,D) : in(I, D) & NOT kill(1,D) 


in(tl, DD) 3: out(J, D) & pred(J,1) 





图 12-19 一 个 简单 的 到 达 定 义 分 析 的 Datalog 程 序 


练习 12.3.4: 在 9.5 节 中 ， 我 们 定义 了 一 个 涉及 六 个 概念 的 数据 流 计 
算 ， 这 些 概 念 包括 : 预期 执行 的 、 可 用 的 、 最 早 的 (earlist) 、 可 后 延 
的 、 最 后 的 (latest) 和 被 使 用 的 。 假 设 我 们 已 经 编写 了 一 个 Datalog 程 
序 。 程 序 中 包含 了 一 些 以 EDB 上 断言 方式 定义 的 可 以 从 程序 中 获得 的 概念 
(例如 gen 和 kill 信 息 ) ， 并 且 使 用 这 些 EDB 断 言 和 这 六 个 概念 中 的 其 他 
概念 定义 了 每 个 概念 。 这 六 个 概念 中 的 哪些 概念 依赖 于 哪些 其 他 概念 ? 
这 些 依赖 关系 中 哪些 是 否定 形式 的 ?得 到 的 Datalog 程 序 是 可 分 层 的 吗 ? 


练习 12.3.5: 假设 EDB 断 言 edge (X,Y) 包含 下 面 的 事实 : 





edge (1,2) edge (2,3) edge (3,4) 
edge (4,1) edge (4,5) edge (5,6) 


1) 使 用 算法 12.15 中 的 简单 求 值 策略 ， 在 这 个 数据 上 模拟 运行 例子 
12.12 中 的 Datalog 程 序 。 给 出 每 一 轮 中 找到 的 path 事 实 。 


2) 在 这 个 数据 上 模拟 执行 图 12-17 中 的 Datalog 程 序 。 该 程序 实现 了 
算法 12.18 中 的 增 量 式 求 值 策略 。 给 出 每 一 轮 中 找 出 的 path 的 事实 。 


练习 12.3.6: 下 面 的 规则 


p (X,Y) : -q (X,Z) &r (7Z,W) & NOTp (W,Y) 


是 一 个 较 大 的 Datalog 程 序 P 的 一 部 分 。 

1) 指出 这 个 规则 的 头 、 规 则 体 和 各 个 子 目 标 。 

2) 哪些 断言 一 定 是 程序 P 的 IDB 断 言 ? 

3) 哪些 断言 一 定 是 P 的 EDB 断 言 ? 

4) 这 个 规则 安全 吗 ? 

5) P 是 可 分 层 的 吗 ? 

练习 12.3.7: 把 图 12-14 中 的 规则 转换 成 为 增 量 形式 。 








12.4 一 个 简单 的 指针 分 析 算 法 


在 本 节 中 ， 我 们 开始 讨论 一 个 非常 简单 的 控制 流 无 关 的 指针 别名 分 
析 技 术 。 这 个 技术 假设 被 分 析 程 序 中 没有 过 程 调用 。 我 们 将 在 以 后 各 节 
中 说 明 如 何 处 理 过 程 ， 首 先 给 出 上 下 文 无 关 的 处 理 方法 ， 然 后 再 给 出 上 
下 文 相关 的 方法 。 控 制 流 相 关 会 增加 很 多 复杂 性 ， 并 且 对 于 Java 这 样 的 
语言 来 说 ， 因 为 方法 常常 很 小 ， 所 以 控制 流 相 关 性 和 上 下 文 相关 性 相 比 
束 不 是 那 么 重要 。 


在 指针 别名 分 析 中 ， 我 们 希望 了 解 的 基本 问题 是 一 对 给 定 的 指针 是 
个 可 能 互 为 别名 。 回 答 这 个 提问 的 方法 之 一 是 对 每 个 指针 计算 下 面 问题 
的 答案 : “这 个 指针 可 能 指 回 哪 些 对 象 ? ”如 果 两 个 指针 可 能 指向 同一 个 
对 象 ， 那 么 它们 可 能 互 为 别名 。 











12.4.1 为 什么 指针 分 析 有 难度 





对 C 语 言 程序 进 行 指针 别名 分 析 特 别 困 难 ， 因 为 C 程 序 可 以 对 指针 
进行 任何 运算 。 实 际 上 ， 程 序 可 以 读 入 一 个 整数 并 把 它 赋 给 一 个 指针 ， 
这 么 做 会 使 得 这 个 指针 成 为 程序 中 所 有 其 他 指针 变量 的 别名 。Java 中 的 
指针 称 为 引用 ， 对 它们 的 分 析 要 简 蛙 得 多 。 它 不 文 持 算术 运算 ， 并 且 指 
针 只 能 指向 一 个 对 象 的 开头 。 


指针 别名 分 析 必 须 是 过 程 间 分 析 。 没 有 过 程 间 分 析 ， 我 们 就 必须 假 
设 任 何方 法 调用 都 可 能 改变 所 有 可 被 它 访问 的 指针 变量 所 指 癌 的 内 容 ， 
造成 所 有 过 程 内 的 指针 别名 分 析 非 常 低 效 。 


支持 间接 函数 调用 的 语言 对 指针 别名 分 析 提 出 了 为 一 个 挑战 。 在 C 
语言 中 ， 人 们 可 以 通过 调用 一 个 解 引用 的 函数 指针 来 实现 函数 的 间接 调 
用 。 在 分 析 被 调用 函数 之 前 ， 我 们 需要 知道 这 个 函数 指针 指 疝 哪里 。 显 
然 ， 在 分 析 和 被 调用 的 函数 之 后 ， 我 们 会 发 现 这 个 函数 指针 可 能 指 网 更 多 
的 函数 ， 因 此 这 个 过 程 需 要 人 迭代 进行 。 


虽然 C 语 言 中 的 大 部 分 函数 是 被 直接 调用 的 ， 但 是 Java 中 的 虚 方 法 











使 得 很 多 调用 成 为 间接 调用 。 给 定 一 个 Java 程 序 中 的 调用 x.m()， 对 象 x 
可 能 属于 很 多 个 类 ， 这 些 类 都 具有 名 为 m 的 方法 。 我 们 对 x 的 实际 类 弄 
了 解 得 越 精确 ， 我 们 的 调用 图 也 就 越 精确 。 在 理想 情况 下 ， 我 们 可 以 在 
编译 时 刻 准确 地 确定 x 的 类 ， 从 而 准确 知道 m 指 向 哪个 方法 。 


[8 考虑 下 面 的 Java 语 句 序列 ， 


Object o; 
o = new String() ; 
n = o.hashCode() ; 





这 里 o 被 声明 为 一 个 obpject。 如 果 不 分 析 o 指 癌 什么 ， 我 们 必须 把 在 各 个 
类 中 声明 的 名 为 "hashCode” 的 所 有 方法 都 当 作 可 能 的 调用 目标 。 知 道 o 
指 Pr ring 对 象 将 会 使 过 程 间 分 析 把 范围 精确 地 缩小 到 在 String 中 
声明 的 方法 。 


也 可 以 使 用 近似 的 方法 来 减少 目标 的 数量 。 比 如 ， 我 们 可 以 静态 地 
确定 被 创建 的 对 象 的 类 型 ， 然 后 把 分 析 范 围 限定 在 这 些 类 型 中 。 但 是 ， 
如 果 我 们 可 以 在 做 指针 指向 分 析 的 同时 ， 利 用 指针 指向 信息 动态 地 构造 
调用 图 ， 就 可 以 得 到 更 加 精确 的 结果 。 更 加 精确 的 调用 图 不 仅仅 可 以 获 
得 更 加 精确 的 结果 ， 也 可 以 大 大 减少 分 析 所 需 时 间 。 


旨 针 指向 分 析 是 很 复杂 的 。 它 不 是 “简单 的 ”数据 流 问 题 ， 在 这 类 问 
题 中 我 们 只 需要 模拟 单 次 执行 一 个 语句 循环 的 效果 。 在 指针 分 析 中 ， 当 
我 们 发 现 一 个 新 的 指针 目标 时 ， 我 们 必须 重新 分 析 所 有 把 这 个 指针 所 指 
器 的 内 容 赋 给 其 他 指针 的 语句 。 


为 简单 起 见 ， 我 们 将 主要 关注 Java。 我 们 将 从 控制 流 无 关 和 上 下 文 
无 天 的 分 析 开 始 。 当 前 我 们 假设 程序 中 没有 方法 调用 。 然 后 ， 我 们 描述 
如 何在 计算 指针 指 问 分 析 结 果 的 同时 动态 地 构造 调用 图 。 最 后 我 们 将 描 
述 一 个 处 理 上 下 文 相关 性 的 方法 。 














12.4.2 一 个 指针 和 引用 的 模型 


假设 我 们 的 语言 可 以 用 下 列 方式 来 表示 和 操作 引用 : 


1) 某 些 程序 变量 的 类 型 为 “指向 T 的 指针 ”或 “指向 T 的 引用 ”， 其 中 T 
是 一 个 类 型 。 这 些 变量 可 以 是 静态 的 ， 也 可 能 位 于 运行 时 刻 栈 中 。 我 们 
简单 地 称 它 们 为 变量 。 


2) 有 一 个 对 象 的 堆 。 所 有 变量 都 指向 堆 中 的 对 象 ， 不 指 同 其 他 变 
量 。 这 些 对 象 称 为 堆 对 象 (heap object) 。 


3) 一 个 堆 对 象 可 以 有 多 个 字段 〈field) ， 一 个 字段 的 值 可 以 是 指 
回 一 个 堆 对 象 的 引用 《但 是 不 能 指 同一 个 变量 ) 。 


可 以 使 用 这 个 结构 很 好 地 对 Java 建 模 ， 我 们 将 在 例子 中 使 用 Java 的 
语法 。 请 注意 ， 在 对 C 语 言 建 模 时 这 个 结构 的 效果 就 不 太 好 ， 因 为 在 C 
语言 中 指针 变量 可 以 指 网 其 他 指针 变量 。 而 且 ， 从 原则 上 讲 ， 任 何 C 语 
言 的 值 都 可 以 被 强制 转化 成 为 一 个 指针 。 


因为 我 们 进行 的 是 上 下 文 无 关 的 分 机 ， 所 以 只 需要 断定 一 个 给 定 的 
变量 v 能 够 指向 一 个 给 定 的 堆 对 象 h， 不 需要 指出 在 程序 中 的 什么 地 方 v 
可 能 指 网 n， 或 者 在 什么 样 的 上 下 文中 v 可 以 指 和 网 h。 请 注意 ， 变 量 可 以 
通过 它 的 全 名 来 命名 。 在 Java 中 ， 这 个 全 名 包括 了 模块 、 类 、 方 法 和 方 
法 中 的 块 以 及 变量 名 本 号。 因此 ， 我 们 可 以 区 分 标识 符 相 同 的 多 个 变 
里 。 


























堆 对 象 没 有 名 字 。 因 为 可 能 动态 创建 出 无 限 多 个 对 象 ， 所 以 人 们 经 
常 使 用 近似 方式 给 对 象 命名 。 一 个 惯例 是 使 用 创建 对 象 的 语句 来 指定 对 
象 。 因 为 一 个 语句 可 以 被 执行 多 次 ， 每 次 都 可 以 创建 一 个 新 的 对 象 ， 因 
此 一 个 形 如 “v 可 以 指 网 Pr 的 断言 实际 上 是 说 “v 可 以 指 癌 标号 为 h 的 语句 
创建 的 一 个 或 者 多 个 对 象 。” 


分 析 的 目标 是 确定 各 个 变量 以 及 每 个 堆 对 象 的 各 字段 可 能 指向 哪些 
对 象 。 我 们 把 这 个 分 析 称 为 指针 指向 分 析 (points-to analysis〉。 如 果 两 
个 指针 的 指 同 集合 相交 ， 那 么 它们 互 为 别名 。 这 里 我 们 揪 述 的 是 一 个 基 
于 包含 (inclusion-based) 的 分 析 技 术 。 也 就 是 说 ， 一 个 形 如 v=w 的 语句 
使 得 变量 v 指 向 w 所 指 同 的 所 有 对 象 ， 但 是 反 过 来 不 成 立 。 虽 然 这 个 方 
法 看 起 来 显而易见 ， 但 我 们 还 可 以 使 用 其 他 的 方法 来 定义 指向 分 析 。 比 
如 ， 我 们 可 以 定义 一 个 基于 等 价 关 系 〈equivalence-based) 的 分 析 ， 使 
得 形 如 v=w 的 语句 把 变量 v 和 w 转 变 成 一 个 等 价 类 。 等 价 类 中 的 变量 指 加 
同样 的 对 象 。 虽 然 这 种 表示 法 不 能 很 好 地 估算 别名 问题 ， 但 它 仍 然 为 哪 
些 变量 指向 同一 类 对 象 的 问题 提供 了 一 个 快速 的 求解 方法 ， 而 且 效 果 通 




















常 很 好 。 
12.4.3 ”控制 流 无 天 性 


我 们 首先 给 出 一 个 很 简单 的 例子 ， 说 明 在 指针 指向 分 析 中 忽略 控制 
流 带 来 的 影 啊 。 


图 12-20 中 创建 了 三 个 对 象 h、i 和 j， 并 分 别 赋 给 变量 a、b 和 
c。 广 然 到 第 3 行 结束 的 时 候 ，a 指 向 h，b 指 向 i，c 指 辣 j。 


new 0bject(); 
new 0bject() ; 
new 0bject() ; 
b ; 
C， 
a) 





图 12-20 ” 例 12. 22 的 Java 人 代码 


如 琳 接 着 分 析 语 句 4~~6， 会 及 现在 第 4 行 之 后 ，a 只 指 癌 i。 第 5 行 之 
后 ，b 只 指向 j。 第 6 行 之 后 c 只 指向 i。 


上 面 的 分 析 是 控制 流 相 关 的 ， 因 为 我 们 沿 着 控制 流 计 算 了 在 每 个 语 
人 句 之 后 各 个 变量 会 指向 哪个 对 象 。 换 人 句 话 说 ， 除 了 考虑 各 个 语句 生成 哪 
些 指向 信息 之 外 ， 我 们 也 考虑 了 每 个 语句 “ 杀 死 了 ”哪些 指向 信息 。 比 
ks 
各 9 DD, 东西”。 


一 个 控制 流 无 关 分 析 忽 略 了 控制 流 。 这 么 做 实质 上 就 是 假设 被 分 析 
程序 中 的 各 个 语句 可 以 按照 任何 顺序 执行 。 它 只 计算 一 个 全 局 性 的 指 问 
映射 ， 这 个 映射 指明 了 每 个 变量 在 程序 执行 的 各 点 上 可 能 指向 哪些 对 
象 。 如 果 一 个 变量 在 程序 中 两 个 不 同 语句 的 执行 之 后 指向 两 个 不 同 的 对 
象 ， 我 们 只 记录 它 可 能 指向 这 两 个 对 象 。 换 句 话 说 ， 在 控制 流 无 天 分 析 
中 ， 任 何 赋值 都 不 会 “ 杀 死 ”任何 指向 关系 ， 而 是 只 能 “生成 "更 多 的 指 癌 
关系 。 为 了 计算 控制 流 无 关 分 析 的 结果 ， 我 们 不 断 向 指针 指向 关系 中 加 














入 各 个 语句 的 效果 ， 下 到 无 法 找到 新 的 关系 为 止 。 显 然 ， 缺 乏 控 制 流 相 
关 性 大 大 弱化 了 分 析 的 结果 ， 但 是 这 么 做 通常 可 以 降低 为 表示 分 析 结 
而 使 用 的 数据 的 大 小 ， 并 使 得 算法 更 快 地 收敛 。 


回 到 例 12.22， 第 1 行 到 第 3 行 仍然 告诉 我 们 a 可 以 指向 h; b 可 
六 指 问 i; c 可 以 指 癌 j。 根 据 第 4 行 和 第 5 行 ，a 可 以 指向 h 和 i; b 可 以 指向 i 
和 j。 根 据 第 6 行 ，c 可 以 指向 h、i 和 j。 这 个 信息 又 影响 了 第 5 行 ， 接 着 又 
影响 了 第 4 行 。 最 后 ， 我 们 只 得 到 一 个 没有 用 的 结论 ， 即 任何 指针 可 能 
指 癌 任何 对 象 。 











12.4.4 在 Datalog 中 的 表示 方法 


现在 我 们 基于 上 面 的 讨论 把 一 个 控制 流 无 关 的 指针 别名 分 析 正 式 表 
示 出 来 。 现 在 忽略 过 程 调用 ， 并 将 关注 四 种 可 能 影响 指针 的 语句 : 


1) 对 象 创建 : h: Tv=new TO; 这 个 语句 创建 了 一 个 新 的 堆 对 
象 ， 并 且 变 量 v 可 以 指 同 它 。 

2) 复制 语句 : v=w; 这 里 v 和 w 是 两 个 变量 。 这 个 语句 使 得 v 指 网 w 
当前 所 指 的 堆 对 象 ， 即 w 被 复制 到 v 中 。 

3) 字段 保存 : v.f=w; ”vv 所 指 同 的 对 象 类 型 必须 有 一 个 字段 {， 并 


且 这 个 字段 必须 是 条 一 种 引用 类 型 。 令 v 指 疝 堆 对 象 h， 并 令 w 指 问 g。 
这 个 语句 使 得 h 中 的 字段 {现在 指向 g。 请 注意 ， 变 量 v 的 值 没 有 改变 。 


4) 字段 读 取 : v=w.f; 这 里 w 是 一 个 指向 某 个 具有 字段 { 的 堆 对 象 
的 变量 ， 而 {指向 某 个 堆 对 象 h。 这 个 语句 使 得 变量 v 指 向 h。 
两 个 基本 的 字段 读 取 语句 : 














V1 = w.f; 
V = vi.g; 


现在 ， 我 们 把 这 个 分 析 用 Datalog 规 则 正式 表示 出 来 。 首 先 ， 只 需要 计算 
两 个 IDB 上 断言 : 





1) pts (V, H) 表示 变量 V 可 能 指向 一 个 堆 对 象 H。 
2) hpts〈 了 于 F,G) 表示 堆 对 象 世 的 字段 F 可 能 指向 堆 对 象 G。 


EDB 关 系 根据 程序 本 身 构 造 得 到 。 因 为 在 控制 流 无 关 的 分 析 中 ， 程 
序 中 语句 的 位 置 和 分 析 无 关 ， 所 以 只 需要 在 EDB 中 确定 程序 中 是 否 存 在 
某 种 形式 的 语句 。 在 接 下 来 的 内 容 中 ， 我 们 将 做 一 个 方便 的 简化 。 我 们 
没有 定义 专门 的 EDB 关 系 来 存放 从 程序 中 获取 的 信息 ， 而 是 使 用 带 引 号 
的 语句 的 方式 来 指明 一 个 或 者 多 个 EDB 关 系 。 这 些 关 系 表示 程序 中 存在 
这 样 的 语句 。 比 如 ，“H:T V=new T()” 是 一 个 EDB 事 实 ， 它 表示 在 语句 H 
中 有 一 个 赋值 使 得 变量 V 指 向 一 个 新 的 类 型 为 T 的 对 象 。 在 实践 中 ， 我 
们 假设 有 一 个 对 应 的 EDB 关 系 ， 其 中 包含 的 基础 原子 和 程序 中 这 种 形式 
的 语句 一 一 对 应 。 


根据 这 种 约定 ， 我 们 在 编写 Datalog 程 序 时 要 做 的 全 部 工作 就 是 为 上 
面 的 四 种 语句 中 的 每 一 种 写 出 一 个 规则 。 相 应 的 程序 在 图 12-21 中 给 
出 。 规 则 1 说 明 如 果 语 句 H 是 把 一 个 新 对 象 赋 给 V 的 赋值 语句 ， 变 量 V 就 
可 能 指 疝 堆 对 象 H。 规 则 2 说 明 如 果 存 在 一 个 复制 语句 v=w， 并 且 W 可 以 
指向 H， 那 么 V 也 可 以 指向 H。 






































1) pts(V,H) :- “HH: TV =newT()” 


2 pts(V,H) :- ‘V=W”& 
pts(W, H) 


3) hpts(H,FG) :- VEF=W"& 
pts(W,G)& 
pts(V,H) 


4) pts(V,H) :- ‘VV=W.m 
pts(W,G) & 
hpts(G, F, H) 








图 12-21 控制 流 无 关 指 针 分 析 的 Datalog 程 序 


规则 3 说 明 ， 如 果 存 在 一 个 形 如 v.F=w 的 语句 ，W 可 以 指向 G， 并 且 
V 可 以 指 癌 再 ， 那 么 再 的 字段 F 可 以 指向 G。 最 后 ， 规 则 4 说 明 ， 如 果 存 在 
一 个 形 如 v=w.F 的 语句 ，W 可 以 指向 G， 并 且 G 的 字段 F 可 以 指向 H， 那 么 
V 可 以 指向 H。 请 注意 ，pts 和 hpts 是 相互 递归 的 ， 但 是 这 个 Datalog 程 序 





可 以 用 任何 一 个 在 12.3.4 节 中 讨论 的 迭代 算法 进行 求 值 。 
12.4.5 ”使 用 类 型 信息 


因为 Java 是 类 型 安全 的 ， 变 量 只 能 指向 和 它 的 声明 类 型 相 兼 容 的 类 
型 。 比 如 ， 把 一 个 属于 一 个 变量 的 声明 类 型 的 超 类 的 对 象 赋 给 这 个 变量 
将 引发 一 个 运行 时 刻 异 常 。 考 虑 图 12-22 中 的 简单 例子 ， 其 中 S 是 T 的 子 
类 。 如 末 p 为 真 ， 这 个 程序 将 引 友 一 个 运行 时 刻 异常 ， 因 为 a 不 能 锌 赋予 
一 个 类 型 为 T 的 对 象 。 这 样 ， 因 为 类 型 约束 的 原因 ， 我 们 可 以 静态 地 断 
定 a 只 能 指向 h 而 不 能 指向 g。 


S a; 
Tb; 
Ep 
b = new T(); 
} else 
b = new S(); 


} 
a 


= b; 





图 12-22 具有 类 型 错误 的 Java 程 序 


因此 ， 我 们 在 分 析 技 术 中 引入 三 个 EDB 断 言 。 这 些 断 言 反 映 了 被 分 
析 代 码 中 的 重要 类 型 信息 。 我 们 将 使 用 下 面 的 断言 : 


1) vType 〈V,T) 表示 变量 V 被 声明 为 类 型 T。 

2) hType〈 了 HT) 表示 堆 对 象 H 在 分 配 时 具有 类 型 T。 如 果 一 个 被 
创建 的 对 象 是 由 某 个 核心 代码 例 程 返回 的 ， 那 么 有 可 能 不 能 精确 决定 它 
的 类 型 。 此 时 ， 被 创建 对 象 的 类 型 可 以 被 保守 地 设 定 为 所 有 可 能 的 类 


型 。 











3) assignable (T, S) 表示 类 型 为 的 对 象 可 以 被 赋值 给 一 个 类 型 为 
T 的 变量 。 这 个 信息 通常 是 从 程序 中 子 类 型 的 声明 中 收集 的 ， 同 时 也 包 
含 了 关于 语言 中 预定 义 类 的 信息 。assignable(T, T)〉 总 是 取 真 值 。 





我 们 可 以 修改 独 12-21 中 的 规则 ， 使 得 只 有 当 被 赋值 变量 被 赋予 的 
堆 对 象 的 类 型 是 可 赋值 类 型 时 才 可 以 进行 推理 。 新 的 规则 在 图 12-23 中 


显示 。 


“HH: TV =nevw TT()” 


《有三 作文 
pts(W, H)& 
vType(V, T) & 
hType(H,S)& 
assignable(T, 5) 


3) hpts(H,P,G) :- ‘VF=W”& 
pts(W,G) & 
pts(V, H) 


‘V=W& 
pts(W,G) & 
hpts(G, F,H)& 
vType(V,T)& 
hType(H,S)& 
assignable(T, 9) 





图 12-23 ”向 控制 流 无 关 指 针 分 析 增 加 类 型 约束 


我 们 首先 修改 规划 2。 新 规则 的 最 后 三 个 子 目 标 表示 我 们 可 以 断定 
V 可 以 指向 的 条 件 是 V 和 堆 对 象 昌 的 类 型 分 别 是 T 和 S， 并 且 类 型 为 的 
对 象 可 以 被 赋 给 指向 类 型 T 的 变量 。 规 则 4 中 也 增加 了 一 个 类 似 的 附加 约 
束 。 请 注意 ， 在 规则 3 中 没有 附加 约束 ， 因 为 所 有 的 保存 运算 必须 通过 
变量 进行 ， 而 这 些 变量 的 类 型 已 经 被 检查 过 了 。 在 其 中 加 入 的 任何 类 型 
约束 只 能 多 处 理 一 种 情况 ， 即 基 对 象 为 nmull 常 量 的 情况 。 

















12.4.6 ”12.4 节 的 练习 


练习 12.4.1: 在 图 12-24 中 ，h 和 g 用 于 表示 新 创建 对 象 的 标号 ， 它 们 
不 是 代码 的 一 部 分 。 你 可 以 假设 类 型 为 T 的 对 象 有 一 个 字段 f。 使 用 本 节 
中 的 Datalog 规 则 来 推导 出 所 有 可 能 的 pts 和 hpts 事 实 。 





图 12-24 ”练习 12.4.1 的 代码 
! 练习 12.4.2: 对 下 列 代码 
g: Ta = new T(),， 


h: a = new T(); 
Tc 3 ; 


应 用 本 节 中 的 算法 将 可 以 推导 出 a 和 b 都 可 能 指向 hb 和 g。 如 果 代 码 写 成 


new T() ; 
new T() ; 
b ; 


g 
h: Tb 
Ti 


我 们 束 能 够 精确 地 推导 出 a 可 能 指向 hv， 且 b 和 c 可 能 指向 g。 请 给 出 一 个 
可 以 避免 这 种 不 精确 情况 的 过 程 内 数据 流 分 析 技 术 。 


! 练习 12.4.3: 如 果 我 们 用 图 12-21 中 的 规则 2 所 描述 的 复制 运算 来 
模拟 函数 调用 和 返回 操作 ， 就 可 以 把 本 节 中 的 分 析 技 术 扩 展 为 过 程 间 分 
析 技 术 。 也 就 是 说 ， 一 个 调用 把 实在 参数 复制 到 相应 的 形式 参数 中 ， 而 
函数 返回 运算 把 存储 返回 值 的 变量 复制 到 被 赋予 调用 结果 的 变量 中 。 考 
虑 图 12-25 的 程序 。 








(Ct 区 1 
h: Ta = 
a. 
return a,; 


} 


void main() { 
g: Tb = new T(); 
b = p(b); 
b= b.f; 





图 12-25 ”指针 指向 分 析 的 示例 代码 
1) 对 这 个 代码 进行 控制 流 无 关 的 分 析 。 


2) 某 些 在 问题 1 中 做 出 的 推导 实际 上 是 “假冒 的 >， 也 惑 是 说 它们 并 
不 表示 任何 可 能 在 运行 时 刻 产 生 的 事件 。 这 个 问题 的 源头 可 以 退 调 到 对 
变量 b 的 多 次 赋值 。 改 写 图 12-25 中 的 代码 ， 使 得 没有 变量 被 多 次 赋值 。 
对 修改 后 的 代码 再 次 分 析 ， 说 明 每 个 推 寻 得 到 的 pts 和 hpts 的 事实 都 会 在 
运行 时 刻 发 生 。 











12.5 ” 上下文 无 关 的 过 程 间 分 析 


现在 我 们 考虑 方法 调用 。 我 们 首先 解释 如 何 使 用 指针 指 癌 分 析 技 术 
来 获得 精确 的 调用 图 ， 而 调用 图 又 可 以 用 于 计算 精确 的 指针 指向 分 析 结 
果 。 然 后 ， 我 们 正式 描述 如 何 动态 地 生成 调用 图 ， 并 说 明 如 何 用 Datalog 
简洁 地 描述 这 个 分 析 过 程 。 


12.5.1 一 个 方法 调用 的 效果 


在 Java 中 ， 一 个 形 如 x=y.n (z) 的 方法 调用 对 指针 指向 关系 的 影响 
可 以 计算 如 下 : 


1) 确定 接收 对 象 的 类 型 ， 也 就 是 y 所 指 癌 对 象 的 类 型 。 假 设 它 的 类 
型 是 t。 令 m 是 最 低 的 具有 名 为 np 的 例 程 的 的 超 类 中 的 那个 名 为 n 的 例 
程 。 请 注意 ， 一 般 情 况 下 只 能 动态 确定 被 调用 的 方法 。 


2) 方法 m 的 形式 参数 被 赋予 了 实在 参数 所 指向 的 对 象 。 实 在 参数 
不 仅仅 包括 直接 传递 的 参数 ， 也 包括 接收 对 象 本 号。 每 个 方法 调用 把 接 
收 对 象 赋 给 this 变 量 岛 。 我 们 把 this 变 量 当 作 各 个 方法 的 第 0 个 形式 参 
数 。 在 x=y.n (z) 中 有 两 个 形式 参数 : y 所 指 问 的 对 象 被 赋 给 变量 this， 
而 z 所 指 回 的 对 象 被 赋 给 mm 中 声明 的 第 一 个 形式 参数 。 


3) 方法 mm 的 返回 对 象 被 赋 给 这 个 赋值 语句 的 左 部 变量 。 


在 上 下 文 无 关 分 析 中 ， 参 数 和 返回 值 都 由 复制 语句 建 模 。 尚 待 解决 
的 一 个 有 意思 的 问题 是 如 何 确定 接收 对 象 的 类 型 。 我 们 可 以 根据 这 个 变 
量 的 声明 保守 地 确定 它 的 类 型 。 比 如 ， 被 声明 变量 的 类 型 为 f， 那 么 只 
有 t 的 某 个 子 类 型 中 名 字 为 m 的 方法 会 被 调用 。 遗 憾 的 是 ， 如 果 被 声明 变 
量 的 类 型 为 object， 那 么 所 有 名 为 n 的 方法 都 是 可 能 的 调用 目标 。 在 密 
集 使 用 对 象 层次 结构 和 包含 了 大 型 类 库 的 实际 程序 中 ， 这 个 方法 可 能 会 
得 到 很 多 虚假 的 调用 目标 ， 使 得 分 析 过 程 既 缓慢 又 不 精确 。 


我 们 需要 知道 被 分 析 的 变量 可 能 指向 什么 样 的 对 象 ， 以 便 计算 出 调 





























用 目标 。 但 是 ， 除 非 我 们 知道 了 调用 目标 ， 人 否则 无 法 找 出 所 有 这 些 变量 
会 指向 什么 样 的 对 象 。 这 个 递归 关系 要 求 我 们 在 计算 指针 指 疝 集 合 的 同 
时 找 出 调用 目标 。 这 个 分 析 需 要 不 断 进行 ， 直 到 找 不 到 新 的 调用 目标 和 
新 的 指针 指 癌 关系 为 止 。 


Wi 在 图 12-26 的 代码 中 ，r 是 s 的 一 个 子 类 ， 而 s 本 身 又 是 t 的 一 个 
惨 。 加 果 只 使 用 声明 类 型 的 信息 进行 分 析 ，a.n() 可 以 调用 在 上 述 代 
码 中 声明 的 三 个 名 为 n 的 方法 中 的 任何 一 个 ， 因 为 s 和 r 都 是 a 的 声明 类 型 
的 子 类 型 。 不 仅 如 此 ， 看 起 来 在 第 5 行 之 后 a 可 以 指向 对 象 g、h 和 ji 








Glass t 二 

1) g: t n() { return new r(); } 
} 
class s extends t { 

2) 1h: t n() { return new s(); } 
} 
class r extends s { 

3) i: t n() { return new r(); } 
} 
main () { 

4) j: t a= new t(); 

5) a = a.n(); 
3 








图 12-26 一 个 虚拟 方法 调用 


通过 分 析 程 序 中 指针 指 癌 关系 ， 我 们 首先 确定 a 可 以 指向 j， 而 j 是 一 
个 类 型 为 {的 对 象 。 因 此 ， 第 1 行 中 声明 的 方法 是 一 个 调用 目标 。 分 析 第 
1 行 ， 我 们 确定 a 也 可 能 指向 g， 而 g 是 一 个 类 型 为 ?的 对 象 。 因 此 ， 第 3 行 
中 声明 的 方法 也 可 能 是 一 个 调用 目标 ， 且 现在 a 可 能 也 指 疝 i， 而 i 是 男 一 
个 类 型 为 ?的 对 象 。 因 为 没有 发 现 更 多 的 新 调用 目标 ， 这 个 分 析 过 程 终 
止 了 。 它 既 没有 分 析 第 2 行 中 声明 的 方法 ， 也 没有 断定 a 可 能 指 网 h。 











12.5.2 ”在 Datalog 中 发 现 调 用 图 


为 了 写 出 上 下 文 无 关 的 过 程 间 分 析 的 Datalog 规 则 ， 我 们 引入 三 个 
EDB 上 断言， 每 个 断言 都 能 够 从 源 代 码 中 轻易 获得 : 


1) actual (S, I, VY) 表示 V 是 调用 点 S 上 的 第 I 个 实在 参数 。 
2) formal (M, I, V) 表示 V 是 方法 M 中 声明 的 第 I 个 形式 参数 。 


3) cha(T, N, M) 表示 在 一 个 类 型 为 T 的 接收 对 象 上 调用 N 时 实际 
调用 的 方法 是 M 〈cha 是 class hierarchy analysis 〈 类 层次 结构 分 析 ) 的 缩 
sp 


调用 图 的 每 个 边 都 被 表示 为 一 个 IDB 断 言 mvokes。 当 我 们 找到 的 调 
用 图 的 边 越 来 越 多 时 ， 根 据 参 数 被 传 入 及 返回 值 被 传 出 的 情况 ， 我 们 会 
得 到 越 来 越 多 的 指针 指向 关系 。 这 个 效果 被 忆 结 为 图 12-27 中 的 规则 。 








invokes(S, M) :- “S: VN(..)” & 
pts(V, H)& 
hType(H,T)& 
cha(T, N,M ) 


invokes(S, M)& 
formal(M,1,V)& 
actual(S, I,W)& 
pts(W, H) 





图 12-27 发 现 调用 图 的 Datalog 程 序 


第 一 个 规则 计算 了 调用 点 的 调用 目标 。 也 就 是 说 ，“S: 
V.N (...) ”表明 存在 一 个 标号 为 的 调用 点 ， 它 调用 了 由 V 指 向 的 接收 对 
象 的 名 为 N 的 方法 。 这 些 子 目标 表示 ， 如 果 V 可 以 指向 实际 类 型 为 T 的 堆 
nn 
能 调用 方法 M。 


第 二 个 规则 说 明 ， 如 果 调 用 点 5 可 以 调用 方法 M， 那 么 M 的 每 个 形 
式 参 数 都 可 能 指向 本 次 调用 中 相应 的 实在 参数 所 指 回 的 任何 对 象 。 处 理 
返回 值 的 规则 留 作 练习 请 读者 目 行 完成 。 


把 这 两 个 规则 和 12.4 节 中 解释 的 规则 组 合 起 来 ， 我 们 融 建 立 了 一 个 
使 用 调用 图 的 上 下 文 无 关 的 指针 指 同 分 析 方 法 。 其 中 的 调用 图 是 在 分 析 
的 同时 动态 生成 的 。 这 个 分 析 的 副作用 是 使 用 上 下 文 无 关 和 控制 流 无 关 
的 指针 指向 分 析 生 成 了 一 个 调用 图 。 相 对 于 那个 只 根据 类 型 声明 和 语法 
分 析 得 到 的 调用 图 ， 这 个 调用 图 要 精确 得 多 。 





12.5.3 ”动态 加 载 和 反射 


Java 这 样 的 语言 支持 类 的 动态 加 载 。 因 此 分 析 一 个 程序 执行 的 所 有 
代码 是 不 可 能 的 ， 也 就 不 可 能 静态 地 给 出 任何 对 调用 图 和 指针 别名 的 保 
守 的 估算 。 静 态 分 析 只 能 基于 被 分 析 代 码 给 出 一 个 近似 。 请 记 住 ， 这 里 
描述 的 所 有 分 析 都 可 以 在 Java 字 贡 码 的 层次 上 应 用 ， 因 此 不 需要 检查 它 
们 的 源 代 码 。 这 个 选项 非常 重要 ， 因 为 Java 程 序 种 党 使 用 很 多 的 类 库 。 


即使 假设 已 经 分 析 了 所 有 被 执行 的 代码 ， 还 有 一 个 更 加 复杂 的 机 制 
使 得 我 们 不 可 能 进行 保守 分 析 : 反射 机 制 。 反 射 机 制 允 许 程序 动态 地 决 
定 将 要 创建 的 对 象 的 类 型 、 被 调用 的 方法 的 名 字 以 及 被 访问 的 字段 名 。 
这 些 类 型 、 方 法 和 字段 名 可 以 通过 计算 获得 ， 也 可 以 根据 用 户 输入 获 
得 ， 因 此 一 般 情 况 下 唯一 可 能 的 近似 估算 就 是 假设 什么 都 有 可 能 。 


下 面 的 例子 给 出 了 反射 机 制 的 常见 用 法 ; 











1) String className = ...; 
2) Class c = Class.forName(className); 
3) Object o = c.newInstance() ; 


41T = (ly 本 





其 中 的 class 库 中 的 方法 forName 的 输入 是 一 个 包含 了 类 名 的 字符 串 ， 它 
返回 这 个 类 。 方 法 newInstance 返 回 该 类 的 一 个 实例 。 对 象 o 的 类 型 被 强 
制 转 换 成 为 所 有 预期 类 的 超 类 T， 而 不 是 直接 把 object 当 作 o 的 类 型 。 


虽然 很 多 大 的 Java 应 用 使 用 反射 机 制 ， 但 它们 通常 使 用 一 些 常 见 的 
习惯 用 法 ， 比 如 例子 12.25 中 给 出 的 用 法 。 只 要 这 个 应 用 没有 重新 定义 
类 加 载 器 ， 我 们 就 可 以 在 知道 className 的 值 时 指出 这 个 对 象 所 属 的 
类 。 如 果 className 的 值 是 在 程序 中 定义 的 ， 因 为 Java 中 的 字符 串 是 不 可 
变 的 ， 那 么 知道 className 指 问 什 么 值 就 可 以 知道 这 个 类 的 名 字 。 这 个 
技术 是 指针 指 回 分 析 的 另 一 个 应 用 。 如 果 className 的 值 是 基于 用 户 输 
入 的 ， 那 么 指针 指 癌 分 析 可 以 帮助 确定 这 个 值 是 在 哪里 输入 的 ， 而 开发 
者 就 可 以 限定 这 个 值 的 取 值 范围 。 


类 似 地 ， 我 们 可 以 利用 类 型 强制 转换 语句 ， 即 例子 12.25 中 的 第 4 








行 ， 来 估算 动态 创建 的 对 象 的 类 型 。 假 设 没 有 重新 定义 强制 类 型 转换 的 
异 第 处理 程序 ， 那 么 这 个 对 象 必 然 属于 类 型 T 的 菜 一 个 子 类 。 


12.5.4 12.5 节 的 练习 


练习 12.5.1: 对 于 图 12-26 中 的 代码 ， 

1) 构造 EDB 关 系 actual、formal 和 cha。 

2) 推导 出 所 有 可 能 的 pts 和 htps 事 实 。 

! 练习 12.5.2: 你 将 如 何 向 12.5.2 节 中 的 EDB 断 言 和 规则 中 加 入 附加 
的 断言 和 规则 来 处 理 下 面 的 情况 : 如 果 一 个 方法 调用 返回 了 一 个 对 象 ， 


那么 被 赋值 为 这 个 调用 结果 的 变量 可 能 指向 任 何 用 以 存放 返回 值 的 变量 
所 指向 的 任何 对 象 。 


12.6” 上下文 相关 指针 分 析 


12.1.2 节 中 讨论 过 ， 上 下 文 相关 性 可 以 大 大 提高 过 程 间 分 析 的 精确 
性 。 我 们 讨论 了 两 种 过 程 间 分 析 的 方法 ， 一 种 基于 克隆 的 方法 〈 见 
12.1.4 节 ) ， 另 一 种 是 基于 摘要 的 方法 〈 见 12.1.5 节 ) 。 那 么 我 们 应 该 使 
用 哪 一 个 方法 呢 ? 


在 计算 指针 指向 信息 的 摘要 时 有 几 个 难点 。 首 先 ， 这 些 摘要 很 大 。 
每 个 方法 的 摘要 必须 包括 这 个 函数 和 所 有 被 调用 者 可 能 做 出 的 所有 更 新 
所 产生 的 影响 。 这 些 影 响 需 要 用 输入 参数 来 表示 。 也 就 是 说 ， 一 个 方法 
可 能 改变 的 指向 集合 包括 : 所 有 可 通过 静态 变量 及 输入 参数 到 达 的 所 有 
数据 的 指 癌 集合， 以 及 由 该 方法 及 修 调 用 方法 所 创建 的 全 部 对 象 的 指 问 
集合 。 昌 然 人 们 已 经 给 出 了 复杂 的 解决 方案 ， 但 是 现在 还 没有 解决 方法 
可 以 被 应 用 到 大 型 程序 中 。 即 使 摘要 可 以 通过 自 搬 铝 上 的 方式 计算 得 
到 ， 但 如 何在 一 个 典型 的 自 项 向 下 处 理 过 程 中 计算 所 有 上 下 文 环境 下 的 
指针 指向 集合 是 一 个 更 大 的 问题 。 因 为 上 下 文 环境 的 数量 可 能 按照 指数 
级 增长 。 这 样 的 信息 对 于 一 些 全 局 性 查询 是 必须 的 ， 比 如 在 代码 中 找 出 
指 回 东 个 特定 对 象 的 所 有 指针 。 


在 本 节 中 ， 我 们 将 讨论 基于 克隆 的 上 下 文 相 关 分 析 技 术 。 基 于 元 隆 
的 分 析 直 接 为 每 个 感 兴趣 的 上 下 文 都 给 出 一 个 对 应 方法 的 克隆 。 然 后 ， 
我 们 对 克隆 得 到 的 调用 图 进行 上 下 文 无 关 分 析 。 虽 然 这 个 方法 看 起 来 简 
单 ， 但 最 大 的 难 反 在 于 如 何 处 理 大 量 克 隆 的 细 市 。 有 多 少 个 上 下 文 ? 即 
使 我 们 像 12.1.3 中 讨论 的 那样 把 所 有 递归 调用 环 塌 缩 为 一 个 点 ， 在 一 个 
Java 应 用 中 找到 10“ 个 上 下 文 的 情况 也 并 不 少见 。 把 这 么 多 上 下 文 的 分 
析 结 末 用 茶 种 方式 表示 出 来 是 我 们 所 面临 的 挑 成 。 


我 们 把 对 上 下 文 相关 性 的 讨论 分 成 两 个 部 分 : 


1) 如 何在 逻辑 上 处 理 上 下 文 相关 性 ? 这 个 部 分 较为 简单 ， 因 为 可 
以 直接 对 克隆 得 到 的 调用 图 应 用 上 下 文 无 关 的 分 析 算 法 。 


2) 如 何 表示 指数 量 级 的 上 下 文 ? 方法 之 一 是 把 这 个 信息 表示 为 一 
个 二 分 决策 图 (BDD) 。 这 是 一 个 经 过 高 度 优 化 的 数据 结构 ， 曾 经 用 于 
很 多 其 他 的 应 用 。 
































这 个 处 理 上 下 文 相关 性 的 方法 很 好 地 说 明了 抽象 方面 的 重要 性 。 我 
们 将 说 明 如 何 应 用 人 们 多 年 来 在 BDD 抽 象 方面 所 做 的 工作 来 消除 算法 的 
复杂 性 。 我 们 可 以 用 很 少儿 行 Datalog 程 序 来 表示 一 个 上 下 文 相关 的 指针 
指 回 分 析 。 而 这 个 程序 利用 了 已 有 的 几 千 行 用 于 BDD 数 据 操作 的 代码 。 
这 个 方法 具有 多 个 重要 的 优势 。 首 先 ， 它 使 得 人 们 能 够 比较 容易 地 表示 
那些 利用 指针 指向 分 析 结 果 进 行 深度 分 析 的 技术 。 无 论 如 何 ， 指 针 指 癌 
分 析 结 果 本 身 并 不 令 人 感 兴趣 。 第 二 ， 它 使 得 正确 写 出 这 个 分 析 方 法 的 
任务 变 得 容易 得 多 ， 因 为 它 利 用 了 很 多 行经 过 充分 调试 的 代码 。 

















12.6.1 上 下 文 和 调用 上 串 


下 面 描述 的 上 下 文 相关 的 指针 指向 分 析 假 设 我 们 已 经 计算 得 到 了 一 
个 调用 图 。 这 个 假设 有 助 于 我 们 使 用 紧凑 的 方式 来 表示 多 个 调用 上 下 
文 。 为 了 得 到 调用 图 ， 我 们 首先 运行 一 次 上 下 文 无 关 的 指针 指 问 分析 过 
程 。12.5 节 讨论 过 ， 这 个 分 析 过 程 同 时 生成 了 调用 图 。 现 在 我 们 描述 如 
何 创 建 元 隆 的 调用 图 。 


调用 串 形 成 了 活跃 的 函数 调用 的 历史 ， 而 一 个 上 下 文 就 是 一 个 调用 
串 的 表示 形式 。 另 一 个 看 待 上 下 文 的 方法 是 把 它 看 作 一 个 调用 序列 的 摘 
。 这 些 调用 的 活动 记录 当前 位 于 运行 时 刻 栈 中 。 如 果 栈 中 没有 递归 函 
数 ， 那 么 这 个 调用 串 《〈 即 调用 了 栈 中 函数 的 位 置 的 序列 ) 是 一 个 完全 表 
示 。 同 时 它 也 是 一 个 可 接受 的 表示 方式 ， 因 为 只 有 有 限 多 个 不 同 的 上 下 
文 。 虽 然 上 下 文 的 个 数 可 能 是 程序 中 国 数 数量 的 指数 级 。 


但 如 末 程 序 中 存在 递归 函数 ， 那 么 可 能 的 调用 串 的 数目 是 无 穷 的 ， 
我 们 不 能 用 所 有 可 能 的 调用 串 来 表示 不 同 的 上 下 文 。 可 以 使 用 多 个 方法 
来 限制 不 同 的 上 下 文 的 数目 。 比 如 ， 我 们 可 以 编写 一 个 描述 了 所 有 可 能 
调用 串 的 正则 表达 式 ， 然 后 使 用 3.7 节 中 的 方法 把 这 个 表达 式 转化 成 为 

个 确定 的 有 穷 状 态 目 动机 。 之 后 ， 各 个 上 下 文 束 可 以 使 用 这 个 目 动 机 
的 状态 来 标识 。 


这 里 ， 我 们 将 采用 一 个 更 简单 的 方案 ， 它 包含 非 递 归 调 用 的 全 部 历 
史 ， 但 是 把 递归 调用 当 作 ”“ 难 以 分 拆 ” 的 内 容 。 我 们 首先 找 出 程序 中 相互 
递归 调用 的 函数 的 集合 。 这 个 过 程 很 简单 ， 因 此 这 里 不 再 详细 讨论 。 考 
虑 一 个 以 程序 中 各 个 函数 为 结 点 的 图 。 如 果 函 数 p 调 用 了 函数 qg， 那 么 图 
中 就 存在 一 条 从 结 点 p 到 q 的 边 。 这 个 图 的 强 连 通 分 量 〈SCC) 就 是 相互 
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递归 调用 函数 的 集合 。 下 面 的 这 个 特例 很 音 见 。 一 个 函数 p 调 用 了 它 自 
身 ， 但 是 它 不 在 包含 了 其 他 函数 的 SCC 中 ， 那 么 函数 p 本 身 是 一 个 
SCC， 而 所 有 的 非 递归 函数 本 身 也 是 SCC。 如 果 一 个 SCC 具 有 多 个 成 员 
( 即 相互 递归 调用 的 情况 ) ， 或 者 它 包含 唯一 一 个 递归 成 员 ， 我 们 就 说 
这 个 SCC 是 非 平 凡 的 nontrivial) 。 单 个 非 递 归 函 数组 成 的 SCC 是 平凡 
SCC 。 


前 面 有 一 个 规则 说 任何 调用 串 都 是 一 个 上 下 文 ， 我 们 对 这 个 规则 做 
人 
现 : 


1) s 在 一 个 函数 p 中 。 
) 函数 q 在 调用 点 s 处 被 调用 〈 有 可 能 q=p) 。 


3) p 和 q 位 于 同一 个 强 连 通 分 量 中 《〈 即 p 和 qd 相互 递归 调用 ， 或 者 p=q 
且 p 是 递归 函数 ) 。 


这 么 做 的 结果 是 ， 当 一 个 非 平 凡 SCC 的 成 员 S 被 调用 时 ， 这 个 调用 
的 调用 点 变 成 了 上 下 文 的 一 部 分 ， 但 是 在 $ 中 对 同一 SCC 中 其 他 函数 的 
调用 都 不 在 这 个 上 下 文中 。 最 后 ， 当 一 个 S 之 外 的 调用 发 生 时 ， 我 们 把 
该 调用 点 记录 为 这 个 上 下 文 的 一 部 分 。 


图 12-28 中 给 出 了 五 个 函数 的 略图 ， 图 中 给 出 了 一 些 调用 点 和 

绎 鸭 华 中 的 调 有 用。 检查 一 下 这 些 调用 惑 会 发 现 ，q 和 r 是 相互 递归 的 。 
但 是 pc、s 和 t 根 本 不 会 递归 调用 。 因 此 ， 我 们 的 上 下 文 将 是 除了 ss 和 s5 之 
外 的 所 有 调用 点 的 列表 。 函 数 q 和 Ir 之 间 的 递归 调用 就 发 生 在 s3 和 s5 处 。 











void p() { 


= r(W); 
i: Td= new T(); 
t(d); 
return d; 


{ 
:Te = q(x); 
s(e); 


return e; 


j:Tg= new T(); 
return g; 








图 12-28 与 一 个 运行 实例 对 应 的 函数 和 调用 点 
让 我 们 考虑 从 p 到 t 的 所 有 路 径 ， 也 就 是 所 有 调用 了 t 的 上 下 文 : 


1) p 可 以 在 s2 处 调用 s， 然 后 s 可 以 在 s7 或 者 s8 处 调用 t。 因 此 ， 两 个 
可 能 的 调用 串 是 (s2，s7) 和 (s2，s8) 。 


2) p 可 以 在 si 处 调用 q。 然 后 ，q 和 r 可 以 多 次 递归 地 调用 对 方 。 我 
们 把 这 个 环 打开 : 


QD 在 s4 处 ，t 直 接 被 q 调 用。 这 个 选择 可 以 得 到 唯一 的 上 下 文 (sdl， 


S4) 。 


@ 在 s6 处 ，r 调 用 s。 这 里 ， 我 们 可 以 通过 在 s7 处 或 s8 处 的 调用 到 达 


t。 这 么 做 给 出 了 两 个 新 的 上 下 文 (s1，s6，s7) 和 (s1，s6，s8) 。 


因此 ， 总 共有 五 个 不 同 的 上 下 文 调 用 了 t。 请 注意 ， 所 有 这 些 上 下 
文 都 省 略 了 递归 调用 点 s3 和 s5。 比 如 ， 上 下 文 (si1，s4) 实际 上 表示 了 
对 应 于 调用 串 (S1，S3，(S5，S3) ", s4) 的 无 穷 集合 ， 其 中 n>0。 


现在 我 们 描述 一 下 如 何 得 到 克隆 调用 图 。 每 一 个 被 克隆 的 方法 都 使 
用 程序 中 的 方法 M 和 一 个 上 下 文 C 来 标识 。 在 原 调用 图 的 边 上 加 上 相应 
的 上 下 文 就 可 以 得 到 元 隆 后 的 调用 图 的 边 。 请 注意 ， 在 原 调用 图 中 有 一 
条 连接 调用 点 S 和 方法 M 的 边 的 条 件 是 断言 invokes (S, M) 为 真 。 为 了 
增加 上 下 文 以 标识 元 隆 调 用 图 中 的 例 程 ， 我 们 可 以 定义 一 个 相应 的 断言 
CSinvokes，CSinvokes (S, C, M, D) 为 真 的 条 件 是 上 下 文 C 中 的 调用 点 
S 调 用 了 方法 M 的 上 下 文 D。 





12.6.2 ”在 Datalog 规 则 中 加 入 上 下 文 信息 


为 了 找 出 上 下 文 相关 的 指针 指 辣 关系 ， 我 们 可 以 直接 把 相同 的 上 下 
文 无 关 指 针 指向 分 析 拉 术 应 用 到 克隆 的 调用 图 上 。 因 为 在 这 个 克隆 的 调 
用 图 中 的 方法 是 用 原 方法 和 它 的 上 下 文 来 表示 的 ， 我 们 相应 地 修正 了 所 
有 的 Datalog 规 则 。 为 简单 起 见 ， 下 面 的 规则 不 包括 类 型 约束 ， 且 符 
号 ” "表示 了 任何 新 的 变量 。 


IDB 上 断言 pts 中 必须 增加 一 个 表示 上 下 文 的 参数 。 断 言 pts (V, C, H) 
表示 上 下 文 C 中 的 变量 V 可 以 指向 堆 对 象 H。 所 有 这 些 规 则 都 是 不 解 自明 
的 ， 但 规则 5 是 一 个 例外 。 规 则 5 表示 ， 如 果 上 下 文 C 中 的 调用 点 S 调 用 
了 上 下 文 D 的 方法 M， 那 么 上 下 文 D 的 方法 M 的 形式 参数 可 能 指向 由 上 
下 文 C 中 的 相应 实在 参数 指向 的 对 象 。 








pts(V,C,H) : “FH: TV =newT()”& 
CSinvokes(H,C,.,.) 


pts(V,C,H) :- “V=W’”& 
pts(W, C, 万 ) 


hpts(H,F,G) :- “VF=W’”& 
pts(W, CO,G) & 
pts(V, C,H) 


pts(V,C,H) : “VV=Wr& 
pts(W,C,G)& 
hpts(G, F, H) 


pts(V,D,H) :- CSinvokes(S,C,M,D)%& 
formal(M,I,V)& 
actual(S, I,W)& 
pts(W, C,H) 





图 12-29 上下文 相关 的 指针 指向 分 析 的 Datalog 图 


12.6.3 ”关于 相关 性 的 更 多 讨论 


上 面 我 们 描述 的 是 一 个 上 下 文 相关 性 的 公式 化 表示 。 这 个 方法 已 经 
体现 出 实用 性 。 使 用 下 一 节 将 要 描述 的 一 些 技巧 ， 它 就 能 够 处 理 很 多 真 
ne 





在 这 个 表示 方法 中 ， 堆 对 象 是 通过 它们 的 调用 点 来 命名 的 ， 但 是 却 
不 具有 上 下 文 相关 性 。 这 个 简化 处 理 可 能 引起 一 些 问题 。 考 虑 一 下 对 象 
工厂 设计 设计 模式 ， 这 个 设计 模式 中 同一 类 型 的 所 有 对 象 都 由 同一 个 例 
程 分 配 。 当 前 的 表示 方案 会 使 得 那个 类 的 所 有 对 象 都 共 吝 同一 个 名 字 。 
应 对 这 一 情况 的 比较 容易 的 方法 是 把 相应 的 对 象 创建 代码 进行 实质 上 的 
内 联 处 理 。 在 处 理 更 具 一 般 性 的 情况 时 ， 我 们 期 望 提高 对 象 命名 的 上 下 
文 相关 性 。 虽 然 很 容易 同 Datalog 规 则 中 加 入 对 象 的 上 下 文 相关 信息 ， 但 
是 要 使 得 相应 的 分 析 方 法 能 够 被 用 于 大 规模 程序 则 是 男 一 个 问题 了 。 


男 一 个 相关 性 的 重要 形式 是 对 象 相关 性 。 一 个 对 象 相关 的 技术 可 以 
区 分 在 不 同 的 接收 对 象 上 调用 的 方法 。 我 们 考虑 一 下 这 样 的 场景 ， 在 某 




















个 调用 后 所 处 的 上 下 文中 有 一 个 变量 可 能 指向 同一 个 类 的 两 个 不 同 的 接 
收 对 象 。 这 两 个 不 同 的 接收 对 象 的 字段 可 能 指 网 不 同 的 对 象 。 如 果 不 区 
分 接收 对 象 ， 在 由 this 对 象 引 用 的 字段 之 间 的 复制 语句 将 产生 虚假 的 指 
加 关系 ， 除 非 我 们 对 不 同 的 接收 对 象 分 别 进行 分 析 。 在 有 些 分 析 中 ， 对 
象 相关 性 要 比 上 下 文 相关 性 更 加 有 用 。 


12.6.4 12.6 节 的 练习 





练习 12.6.1: 如 果 我 们 把 本 节 中 的 方法 应 用 到 图 12-30 中 的 代码 上 ， 
我 们 能 够 区 分 的 上 下 文 有 哪些 ? 


= new T(); 
= new T(); 
= q(a,b); 


new T(); 
q(x,d); 
q(d,y); 
= ds 
return d; 


{ 


return Z; 





图 12-30 ”练习 12.6. 1 和 练习 12. 6.2 的 代码 
练习 12.6.2: 对 图 12-30 中 的 代码 进行 上 下 文 相 关 性 分 析 。 


! 练习 12.6.3: 按照 12.5 节 中 的 方法 ， 扩 展 本 节 中 的 Datalog 规 则 ， 
使 之 包含 类 型 和 子 类 型 信息 。 


一 


一 


12.7 ”使 用 BDD 的 Datalog 的 实现 


二 分 决策 图 (Binary Decision Diagram, BDD) 是 一 个 用 图 来 表示 布 
尔 函 数 的 方法 。 因 为 对 n 个 变量 有 2?” 个 布尔 函数 ， 没 有 哪 种 表示 方法 能 
够 很 简洁 地 表示 所 有 的 布尔 函数 。 但 是 ， 在 实践 中 出 现 的 布尔 函数 利 篆 
具有 很 多 规律 。 因 此 ， 和 人们 常常 可 以 找到 一 个 BDD 来 简洁 地 表示 他 们 想 
要 表示 的 布尔 函数 。 


我 们 为 了 分 析 程 序 而 开发 了 一 些 Datalog 程 序 。 事 实 表明 ， 用 这 些 
Datalog 程 序 描述 的 布尔 函数 也 不 例外 ， 也 可 以 使 用 BDD 简 洁 地 表示 。 
BDD 方 法 在 实践 中 是 相当 成 功 的 ， 虽 然 我 们 需要 通过 商业 BDD 操 作 程 
序 包 中 的 一 些 局 友 式 规则 或 技术 才 可 以 找到 用 以 表示 程序 信息 的 简洁 的 
BDD。 值 得 一 提 的 是 ， 它 比 使 用 传统 数据 库 管理 系统 的 方法 具有 更 好 的 
性 能 ， 因 为 传统 数据 库 管理 系统 是 为 了 在 典型 丙 业 数据 中 出 现 的 更 加 不 
规则 的 数据 模式 而 设计 的 。 


讨论 经 过 多 年 开发 才 得 到 的 所 有 BDD 技 术 已 经 超出 了 本 书 的 范围 。 
我 们 将 在 这 里 介绍 BDD 的 表示 方法 。 然 后 ， 指 出 如 何 把 一 个 关系 数据 表 
示 成 为 BDD。 在 用 诸如 算法 12.18 的 算法 来 执行 Datalog 程 序 时 需要 进行 
某 些 运算 。 我 们 也 指出 了 如 何 操作 BDD 来 完成 这 些 运 算 。 最 后 ， 我 们 描 
述 了 如 何在 BDD 中 表示 指数 量 级 的 上 下 文 。 这 种 表示 法 是 在 上 下 文 相关 
性 分 析 中 成 功 应 用 BDD 的 关键 。 




















12.7.1 ”二 分 决策 图 


一 个 BDD 把 一 个 布尔 函数 表示 成 为 一 个 市 根 的 DAG 图 。 这 个 DAG 
的 每 个 内 部 结 点 都 用 被 表示 函数 的 一 个 变量 作为 标号 。 在 图 的 底部 是 两 
个 叶子 ， 一 个 标号 为 0， 男 一 个 标号 为 1。 每 个 内 部 结 点 有 两 条 指 癌 子 结 
点 的 边 ， 这 两 条 边 分 别称 为 “ 低 边 ”和 “高 边 ”。 低 边 对 应 于 该 结 点 对 应 变 
量 取 值 为 0 时 的 情况 ， 而 高 边 对 应 于 相应 变量 取 值 为 1 时 的 情况 。 


给 定 这 些 变 量 的 一 个 真 假 赋值 ， 我 们 可 以 从 DAG 的 根 开始 确定 函数 
的 取 值 。 在 每 个 结 皮 上 ， 比 如 说 标 写 为 x 的 结 把 上， 分 别 根 据 x 的 真 假 值 

















为 0 或 1 来 决定 沿 着 相应 的 低 边 或 高 边 前 进 。 如 果 我 们 最 后 到 达标 号 为 1 
ee 那么 被 表示 的 函数 对 于 这 个 真 假 赋 值 取 真 值 ， 售 则 该 函数 取 
段 值 。 








在 图 12-31 中 ， 我 们 看 到 一 个 BDD。 稍 后 会 看 到 它 所 表示 的 函 
。 傅 注意 ， 我 们 已 经 把 所 有 的 “ 低 ? 边 标记 为 0， 所 有 的 “高 ” 边 标记 为 
1。 考 虑 对 于 变量 wxyz 的 真 假 赋 值 ，w=x=y=0，z=1。 从 根 结 点 开始 ， 
为 w=0， 我 们 选取 低 边 ， 从 而 走 到 最 左 的 标号 为 x 的 结 点 。 因 为 x=0， 我 
们 还 是 从 这 个 结 点 沿 着 低 边 到 达 最 左 的 标号 为 y 的 结 点 。 因 为 y=0， 我 们 
下 一 步 移动 到 最 左 的 标号 为 z 的 结 点 。 现 在 ， 因 为 z==1， 我 们 将 选择 高 i 
并 最 后 到 达标 号 为 1 的 叶子 结 点 。 我 们 的 结论 是 ， 这 个 函数 相对 于 这 个 
真 假 赋值 取 真 值 。 


现在 考虑 真 假 赋值 wxyz=0101， 也 就 是 说 w=y=0，x=z=1。 我 们 还 是 
从 根 结 点 开始 。 因 为 w=0， 我 们 还 是 移动 到 最 左边 的 标号 为 x 的 结 点 。 
但 这 一 次 因为 x=1， 我 们 沿 着 高 边 直接 跳 到 叶子 结 点 0。 也 就 是 说 ， 我 们 
不 仅 知 道真 假 赋值 0101 使 得 这 个 函数 为 假 ， 而 且 因 为 不 需要 查看 y 或 者 z 
的 值 ， 任 何 形 如 01yz 的 真 假 赋 值 都 会 使 得 这 个 函数 取 值 为 0。 这 个 “ 短 
路 ”能 力 是 BDD 成 为 布尔 函数 的 简洁 表示 方法 的 理由 之 一 。 


图 12-31 中 内 部 结 反 分 为 多 个 层次 一 一 每 个 层 中 的 结 点 都 使 用 同一 
个 特定 的 变量 作为 标 写 。 虽 然 这 并 不 是 一 个 绝对 的 要 求 ， 但 把 我 们 的 讨 
论 范 围 限制 在 排序 BDD 之 内 会 带 来 方便 。 在 一 个 排序 BDD 中 ， 相 应 的 
变量 有 一 个 排序 xi, Xx, ,… xn， 并 且 不 论 何 时 有 一 条 从 标号 为 Xi 的 父 结 点 
到 标 写 为 x 的 子 结 点 的 边 束 意味 者 i<j。 我 们 将 看 到 ， 操 作 排 序 BDD 相 对 
容易 ， 并 且 从 现在 开始 我 们 假设 所 有 的 BDD 都 是 排序 的 。 




















图 12-31 一 个 二 分 决策 图 





还 需要 注意 的 是 ，BDD 是 有 问 无 环 图 (DAG) ， 而 不 是 树 。 不 仅 
仅 叶 子 结 点 0 和 1 通常 有 很 多 父 结 点 ， 内 部 结 点 也 可 能 具有 多 个 父 结 点 。 
比如 ， 在 图 12-31 中 最 右 的 标 写 为 z 的 结 皮 有 两 个 父 结 点 。 把 得 到 同样 结 
果 的 多 个 结 点 合并 起 来 也 是 BDD 通 常 比较 简洁 的 理由 之 一 。 





12.7.2 ”对 BDD 的 转换 
在 上 面 的 讨论 中 ， 我 们 提 到 了 两 个 简化 BDD 的 方法 ， 它 们 可 以 使 得 
BDD 更 加 简洁: 


1) 短路 : 如 果 一 个 结 点 N 的 低 边 和 高 边 都 到 达 同 一 个 结 点 M， 那 么 
我 们 可 以 消除 N。 原 来 进入 N 的 边 直接 进入 M。 


2) 结 点 合并 : 如 果 两 个 结 点 N 和 M 的 两 条 低 边 都 到 达 同 一 个 结 点 ， 
并 且 两 条 高 边 也 到 达 同 一 个 结 点 ， 那 么 我 们 可 以 把 N 和 M 合 并 。 原 来 进 


入 N 或 者 M 的 边 都 进入 合并 后 的 结 点 。 


也 可 以 在 相反 的 方向 上 进行 这 两 个 转换 。 特 别 地 ， 我 们 可 以 在 从 N 
到 M 的 边 上 引入 一 个 结 点 。 从 引入 结 点 流出 的 高 边 和 低 边 都 到 达 结 点 
M， 而 原来 从 N 到 M 的 边 现在 到 达 这 个 刚 被 引入 的 结 点 。 但 是 请 注意 ， 
新 结 点 的 标记 变量 必须 是 按照 排序 处 于 N 和 M 之 间 的 茶 一 个 变量 。 图 12- 
32 给 出 了 这 两 个 转换 的 图 示 。 


站 | MA 











a) 短路 b) 结 点 合并 
图 12-32 ”BDD 的 转换 


12.7.3 ”用 BDD 表 示 关 系 


我 们 至 今 为 止 处 理 的 关系 都 有 具有 从 “ 域 "* 中 取 值 的 分 量 。 一 个 关系 的 
东 个 分 量 的 域 是 该 关系 的 各 个 元 组 的 相应 分 量 的 可 能 取 值 的 集合 。 比 
如 ， 关 系 pts (V, H) 的 第 一 个 分 量 的 域 为 所 有 程序 变量 ， 而 第 二 个 分 量 
的 域 为 所 有 对 象 创建 语句 。 如 果 一 个 域 具有 多 于 2n 个 可 能 取 值 且 不 多 
于 2? 个 可 能 值 ， 那 么 它 需 要 n 个 二 进 制 位 (或 者 说 布尔 变量 ) 来 表示 这 
个 域 中 的 值 。 


因此 ， 我 们 可 以 用 一 组 布尔 变量 来 表示 关系 元 组 的 各 个 分 量 的 域 中 
的 值 。 关 系 的 一 个 元 组 可 以 被 看 作 是 这 组 布尔 变量 的 真 假 赋值 。 我 们 可 
以 把 关系 看 作 是 这 组 布尔 变量 上 的 一 个 布尔 函数 。 该 函数 对 于 攻 个 真 假 
赋值 返回 真 值 ， 当 且 仅 当 这 个 赋值 表示 了 此 关系 中 的 一 个 元 组 。 下 面 的 
例子 可 以 说 明 这 个 想法 。 





























考虑 一 个 关系 r (A, B) ， 其 中 A 和 B 的 域 都 是 {fa,b, c, d} 。 我 
门将 拒 二 进 制 位 00 作 为 a 的 编码 ，01 对 应 于 b，10 对 应 于 c 以 及 11 对 应 于 
d。 念 关系 r 的 元 组 为 : 


4 IB 
a | 1 
本 | 时 
d: | 8 





我 们 使 用 布尔 变量 wx 来 对 第 一 个 分 量 〈A) 进行 编码 ， 使 用 变量 yz 
为 第 二 个 分 量 〈B) 进行 编码 。 那 么 关系 r 残 变 成 了 : 





也 就 是 说 ， 关 系 r 被 转换 成 为 一 个 对 三 个 真 假 赋值 wxyz=0001、0010 
和 1110 取 真 值 的 布尔 函数 。 请 注意 ， 这 三 个 二 进 制 序列 恰巧 就 是 图 12- 
31 中 从 根 结 点 到 达 叶 子 结 点 1 的 路 径 上 的 标号 。 也 就 是 说 ， 如 果 使 用 上 
述 编 码 方法 ， 在 那个 图 中 的 BDD 表 示 了 这 个 关系 r。 


12.7.4 用 BDD 操 作 实 现 关 系 运算 


现在 ， 我 们 看 到 了 如 何 把 关系 表示 成 BDD。 但 是 ， 要 实现 像 算法 
12.18〈Datalog 程 序 的 增 量 式 求 值 ) 那样 的 算法 ， 我 们 还 需要 能 够 操作 
ee 下 面 给 出 了 我 们 要 完成 的 主要 的 关系 运 


1) 初始 化 : 我 们 需要 创建 一 个 BDD 来 表示 一 个 关系 的 单个 元 组 。 
我 们 将 通过 合并 运算 把 这 些 表 示 单 个 元 组 的 BDD 集 成 到 表示 大 型 关系 的 
BDD 中 去 。 


2) 合并 : 为 了 表示 关系 的 合并 ， 我 们 使 用 布尔 函数 的 逻辑 OR 运算 
来 表示 得 到 的 关系 。 这 个 运算 不 仅 用 来 构造 初始 关系 ， 也 用 于 把 具有 相 
同 头 断言 的 多 个 规则 的 结果 合并 起 来 ， 还 会 用 于 把 新 的 断言 事实 合并 到 
老 事实 的 集合 中 去 。 算 法 12.18 要 求实 现 这 些 运 算 。 


3) 投影 : 当 我 们 对 一 个 规则 体 求 值 的 时 候 ， 我 们 需要 构造 出 由 那 
些 使 得 规则 体 取 真 值 的 元 组 所 缠 含 的 头 断 言 的 关系。 从 表示 这 个 关系 的 
BDD 的 角度 来 说 ， 我 们 需要 消除 其 中 的 一 些 结 点 ， 这 些 结 点 的 布尔 变量 
标号 没有 用 来 表示 头 关 系 中 的 分 量 。 我 们 可 能 还 需要 对 BDD 中 的 茶 些 变 
量 重 新 命名 ， 以 使 得 它们 和 头 关 系 分 量 的 布尔 变量 相对 应 。 


4) 连接 : 为 了 找 出 令 一 个 规则 体 为 真 的 变量 的 赋值 组 合 ， 我 们 需 
要 把 对 应 于 各 个 子 目 标的 关系 “和 连接” 起来。 比如， 假设 我 们 有 两 个 子 目 
标 r (A,B) &s (B,C) 。 这 些 子 目标 的 关系 的 连接 是 满足 下 列 条 件 的 
三 元 组 〈a,b, c) 的 集合 : 〈a,b) 是 r 的 关系 中 的 一 个 元 组 ， 且 〈b, c) 
是 s 的 关系 的 一 个 元 组 。 我 们 将 看 到 ， 在 对 BDD 中 的 布尔 变量 重新 命 
名 ， 使 得 对 应 于 两 个 B 分 量 的 变量 同名 之 后 ， 这 个 BDD 操 作 和 人 逻辑 AND 
0 而 逻辑 AND 运 算 和 在 BDD 上 实现 关系 合并 的 逻辑 OR 运 算 类 
以 。 


单一 元 组 的 BDD 


为 了 初始 化 一 个 关系 ， 我 们 需要 使 用 一 种 方法 来 为 那些 只 对 单个 真 
假 赋 值 取 真 值 的 函数 构造 BDD。 假 设 布 尔 变 量 为 x/，x，，...，xn， 并 且 
这 个 唯一 的 真 假 赋 值 为 a1a)...a,s， 其 中 每 个 a 是 0 或 1。 相 应 的 BDD 对 于 
每 个 x: 有 一 个 结 点 N;。 如 果 a;=0， 那 么 Nj; 的 高 边 直 接 到 达 叶 子 结 点 0， 而 
低 边 到 达 结 点 Nil， 或 在 i=n 时 到 达 叶 子 1。 如 果 ai=1， 我 们 进行 同样 的 
处 理 ， 只 是 高 边 和 低 边 顺 序 相反 。 



































这 个 策略 给 出 了 一 个 BDD， 它 能 够 检查 每 个 xi 〈i=1 2, ...,n) 是 否 
具有 正确 的 值 。 一 旦 找到 不 正确 的 值 ， 我 们 就 直接 跳 转 到 叶子 结 点 0。 
只 有 当 所 有 变量 的 取 值 都 正确 时 ， 我 们 才 会 在 最 后 到 达 叶 子 结 点 1 处 。 


作为 例子 ， 可 以 回 到 前 面 的 图 12-33b。 这 个 BDD 表 示 了 一 个 当 且 仅 
当 x=y=0( 即 真 假 赋值 为 00 时 ) 才 取 真 值 的 函数 。 


全 并 


我 们 将 详细 地 给 出 一 个 算法 来 计算 BDD 的 逻辑 OR， 也 束 是 这 两 个 
BDD 所 表示 的 关系 的 合并 。 


访 旷 pph〗】 BDD 的 合并 。 


输入 : 两 个 排序 的 BDD， 它 们 的 变量 集合 相同 ， 且 排序 也 相同 。 


输出 : 一 个 BDD， 它 表示 的 函数 是 两 个 输入 BDD 所 表示 的 布尔 函 
数 的 逻辑 OR。 

方法 : 我 们 将 描述 一 个 合并 两 个 BDD 的 递归 过 程 。 这 个 过 程 按照 
BDD 中 出 现 的 变量 集合 的 大 小 进行 归纳 。 

归纳 基础 : 零 个 变量 。 这 两 个 BDD 必 然 都 是 叶子 结 点 ， 其 标号 是 1 


或 0。 如 果 两 个 输入 中 有 一 个 是 1， 那 么 输出 就 是 标号 为 1 的 叶子 结 点 ; 
如 果 两 个 输入 都 是 0， 那 么 输出 叶子 结 点 的 标号 是 0。 


归纳 步骤 : 假设 两 个 BDDD 中 总 共 出 现 了 k 个 变量 yl1，y2，.…，yks 
执行 下 列 步 又 : 


1) 如 果 必 要 ， 使 用 反 向 的 短路 转换 加 入 一 个 新 的 根 ， 使 得 两 个 
BDD 的 根 的 标号 都 是 yi 。 


2) 设 两 个 BDD 的 根 为 N 和 M， 令 它们 的 低 边 子 结 点 分 别 为 No 和 
Mo， 它 们 的 高 边 子 结 扩 分 别 为 Ni 和 MI。 对 分 别 以 No 和 Mo 为 根 的 两 个 
BDD 递 归 地 应 用 这 个 算法 。 同 时 也 对 分 别 以 Ni 和 Mi 为 根 的 两 个 BDD 应 
用 这 个 算法 。 在 得 到 的 两 个 BDD 中 ， 第 一 个 BDD 表 示 的 函数 取 真 值 的 
条 件 是 : 相应 的 真 假 赋 值 中 yi1=0， 并 且 它 使 得 两 个 输入 BDD 中 的 一 个 或 














全 部 取 真 值 。 第 二 个 BDD 表 示 同 样 的 函数 ， 不 过 其 中 的 y1=1。 

3) 创建 一 个 新 的 标号 为 yi 的 根 结 点 。 它 的 低 边 子 结 点 是 通过 递归 
构造 得 到 的 第 一 个 BDD 的 根 结 点 ， 而 它 的 高 边 子 结 点 是 第 二 个 BDD 的 
根 结 点 。 


4) 在 刚刚 通过 合并 得 到 的 BDD 中 把 两 个 标号 为 0 的 叶子 结 点 合并 ， 
同时 把 两 个 标号 为 1 的 叶子 结 反 合并 。 


5) 在 可 能 的 时 候 应 用 合并 和 短路 转换 ， 简 化 得 到 的 BDD。 


在 图 12-33a 和 图 12-33b 中 有 两 个 简单 的 BDD。 第 一 个 BDD 表 
不 久 效 Xx OR y， 而 第 二 个 BDD 表 示 函 数 





NOTXAND NOTY 


0 1 0 1 0 1 
a) b) C) 


图 12-33 为 逻辑 OR 构造 BDD 


请 注意 ， 它 们 的 逻辑 OR 的 结果 是 常量 函数 1， 即 永 真 函数 。 对 这 两 
个 BDD 应 用 算法 12.29 时 ， 我 们 考虑 两 个 根 的 低 边 子 结 点 和 它们 的 高 边 
子 结 皮 。 我 们 先 考虑 后 者 。 


在 图 12-33a 中 ， 根 的 高 边 子 结 点 是 1， 而 在 图 12-33b 中 的 相应 子 结 点 
是 0。 因 为 这 两 个 子 结 点 都 在 叶子 层次 上 ， 所 以 不 需要 在 每 条 边 上 插入 
标号 为 y 的 结 点 ， 尽 管 我 们 这 么 做 会 得 到 同样 的 结果 。 结 点 0 和 1 的 合并 
是 算法 中 归纳 基础 的 情况 ， 合 并 后 生成 一 个 标号 为 1 的 叶子 结 点 。 这 个 
叶子 结 点 将 成 为 新 的 根 结 点 的 高 边 结 点 。 

















图 12-33a 和 图 12-33b 中 的 根 的 低 边 结 点 的 标号 都 是 xy， 因此 我 们 递归 
地 计算 它们 的 合并 BDD。 这 两 个 结 点 的 低 边 子 结 点 的 标号 分 别 为 0O 和 1， 
因此 它们 的 低 边 子 结 点 的 合并 是 标号 为 1 的 叶子 结 点 。 当 我 们 加 入 新 的 
根 结 点 x 后 ， 我 们 得 到 图 12-33c 中 的 BDD。 


我 们 还 没有 完成 ， 因 为 图 12-33c 还 可 以 进一步 简化 。 标 号 为 y 的 结 
点 的 两 个 子 结 点 都 是 结 点 1， 因 此 我 们 可 以 把 结 点 y 删 除 ， 并 把 1 当 作 根 
结 点 的 低 边 子 结 点 。 现 在 ， 根 结 点 的 两 个 子 结 点 都 是 叶子 结 点 1， 因 此 
我 们 可 以 消除 根 结 点 。 也 就 是 说 ， 表 示 这 个 合并 操作 结果 的 最 简单 的 
BDD 就 是 叶子 1 本 喘 。 








12.7.5 在 指针 指 回 分 析 中 使 用 BDD 





要 使 上 下 文 无 关 的 指针 指 癌 分 析 能 够 正确 工作 已 经 很 不 容易 了 。 
BDD 变 量 的 排序 可 以 极 大 地 影响 表示 的 大 小 。 要 得 到 一 个 能 够 使 得 分 析 
很 快 结束 的 BDD 变 量 排序 ， 需 要 各 种 各 样 的 考虑 ， 也 包括 尝试 和 犯错 。 


使 得 上 下 文 相关 的 指针 指 疝 分 析 能 够 有 效 执行 是 一 件 更 加 困难 的 事 
情 ， 因 为 程序 中 有 指数 量 级 的 上 下 文 。 特 别 是 ， 如 果 我 们 随意 使 用 编号 
来 表示 一 个 调用 图 中 的 上 下 文 ， 那 么 我 们 甚至 不 能 处 理 很 小 的 Java 程 
序 。 按 照 适 当 的 方式 对 上 下 文 进行 编写 是 很 重要 的 ， 它 可 以 使 指针 指 癌 
分 析 中 的 编码 变 得 非常 紧 竣 。 同 一 方法 的 调用 路 径 相似 的 两 个 上 下 文 之 
间 有 很 多 共同 点 ， 因 此 对 一 个 方法 的 n 个 上 下 文 连续 编码 是 比较 合适 
的 。 类 似 地 ， 因 为 同一 个 调用 点 上 的 调用 者 -被 调用 者 对 之 间 具 有 很 多 
相似 之 处 ， 所 以 我 们 希望 对 上 下 文 进行 编码 的 方式 可 以 使 得 一 个 调用 后 
上 的 每 个 调用 者 -被 调用 者 对 之 间 的 编码 的 数值 上 是 相差 一 个 常数 。 


即使 有 了 一 个 很 合理 的 对 调用 上 下 文 编码 的 方案 ， 但 高 效 地 分 析 大 
型 Java 程 序 仍然 困难 重重 。 人 们 发 现 ， 主 动机 器 学 习 有 助 于 获取 较 好 的 
变量 排序 ， 使 得 算法 能 够 高 效 地 处 理 大 型 应 用 。 





























12.7.6”12.7 节 的 练习 


练习 12.7.1: 使 用 例子 12.28 中 的 符号 编码 方式 ， 生 成 一 个 BDD 来 表 


示 由 元 组 (b,b) 、 (c,a) 和 (b,a) 组 成 的 关系 。 你 可 以 用 任意 方式 
对 布尔 变量 进行 排序 ， 以 获取 最 简洁 的 BDD。 


! 练习 12.7.2: 如 果 用 最 简洁 的 BDD 来 表示 n 个 变量 上 的 异 或 函数 ， 
那么 这 个 BDD 中 有 多 少 个 结 点 ? 把 它 表 示 成 为 一 个 关于 n 的 函数 。n 个 变 
量 上 的 异 或 函数 是 说 如 果 这 n 个 变量 中 有 奇数 个 变量 为 真 ， 那 么 这 个 函 
数 就 为 真 ; 如 果 有 偶数 个 变量 为 真 ， 那 么 函数 值 为 假 。 


练习 12.7.3: 修改 算法 12.29， 使 之 能 够 后 成 两 个 BDD 的 交集 〈 即 逻 
辑 AND) 。 


! ! 练习 12.7.4: 找 出 在 表示 关系 的 排序 BDD 之 上 的 进行 下 列 关 系 
运算 的 算法 : 


1) 通过 投影 消除 某 些 布尔 变量 。 也 就 是 说 ， 运 算得 到 的 BDD 所 表 
示 的 函数 如 下 : 给 定 一 个 被 保留 变量 的 真 假 赋值 rg， 如 果 存 在 个 消除 变 
量 的 任何 一 个 真 假 赋值 ， 它 和 a 一 起 使 得 原 函 数 取 真 值 ， 那 么 结果 函数 
的 取 值 也 是 真 。 


2) 把 两 个 关系 r 和 s 连 接 起 来 ， 只 要 一 个 来 自 r 的 元 组 和 一 个 来 自 s 的 
元 组 在 r 和 s 的 共同 属性 上 具有 相同 的 值 ， 这 两 个 元 组 束 组 合 起 来 成 为 新 
关系 的 一 个 元 组 。 实 际 上 ， 只 需要 考虑 下 面 的 情况 就 足够 了 : 这 两 个 关 
系 都 只 有 两 个 分 量 ， 且 它们 有 一 个 公共 分 量 。 也 就 是 说 ， 这 两 个 关系 是 
r (A,B) 和 s (B,C) 。 




















12.8 第 12 章 总 结 


过 程 间 分 析 : 对 跨越 过 程 边界 的 信息 进行 跟踪 的 数据 流 分 析 称 为 过 
程 间 分 析 。 很 多 分 析 技 术 ， 比 如 指针 指 同 分 析 ， 只 有 当 它 是 过 程 间 
分 析 的 时 候 才 可 以 完成 有 意义 的 分 析 工 作 。 

调用 点 : 程序 中 调用 其 他 过 程 的 程序 点 称 为 调用 点 。 在 一 个 调用 点 
上 被 调用 的 过 程 可 能 是 显然 的 。 但 是 ， 如 果 这 个 调用 是 通过 指针 间 
接 进 行 的 ， 或 者 它 调用 的 是 具有 多 个 实现 的 虚 方 法 ， 那 么 被 调用 的 
过 程 也 可 能 是 不 明确 的 。 

调用 图 : 一 个 程序 的 调用 图 是 一 个 二 分 图 ， 图 的 结 点 分 为 对 应 于 调 
用 点 的 结 点 和 对 应 于 过 程 的 结 点 。 如 果 一 个 过 程 在 一 个 调用 点 上 被 
调用 ， 那 么 就 有 一 条 从 这 个 调用 点 结 点 到 这 个 过 程 结 点 的 边 。 

内 联 : 只 要 一 个 程序 中 没有 递归 ， 原 则 上 我 们 可 以 把 所 有 的 过 程 调 
用 蔡 换 为 过 程 代码 的 拷贝 ， 并 对 得 到 的 程序 使 用 过 程 内 分 析 技 术 。 
从 效果 上 看 ， 这 个 分 析 是 过 程 间 分 析 。 

控制 流 相关 性 和 上 下 文 相关 性 : 如 果 一 个 数据 法 分 析 得 到 的 事实 和 
程序 中 的 位 置 相 关 ， 那 么 它 就 是 控制 流 相 关 的 。 如 果 一 个 数据 流 分 
析 得 到 的 事实 和 过 程 调 用 的 历史 相关 ， 那 么 它 就 是 上 下 文 相 关 的 。 
一 个 数据 流 分 析 可 以 是 控制 流 相关 的 、 上 下 文 相 关 的 、 两 者 都 相关 
或 者 都 不 相关 。 

基于 克隆 的 上 下 文 相关 分 析 : 从 原则 上 讲 ， 一 旦 我 们 建立 了 过 程 调 
用 的 不 同上 下 文 ， 就 可 以 想象 对 于 每 个 上 下 文 都 有 一 个 该 过 程 的 元 
隆 。 投 照 这 种 方法 ， 一 个 上 下 文 无 关 分 析 技 术 可 以 用 来 进行 上 下 文 
相关 分 析 。 

基于 摘要 的 上 下 文 相关 分 析 : 男 一 个 过 程 间 分 析 的 方法 ， 扩 展 原 来 
为 过 程 内 分 析 而 设计 的 基于 区 域 的 分 析 技 术 。 每 个 过 程 有 一 个 传递 
函数 ， 并 且 在 每 一 个 调用 该 过 程 的 地 方 它 都 被 当 作 一 个 区 域 处 理 。 
过 程 间 分 析 技 术 的 应 用 : 需要 过 程 间 分 析 技 术 的 重要 应 用 之 一 是 检 
测 软件 的 安全 漏洞 。 这 些 漏 洞 的 常见 特性 是 一 个 过 程 从 某 个 不 可 信 
0 而 另 一 个 过 程 以 可 能 被 利用 的 方式 使 用 这 个 输 
Datalog: Datalog 语 言 是 if-then 规 则 的 简单 表示 方式 ， 它 可 以 用 于 
在 高 层次 上 描述 数据 流 分 析 。 一 组 Datalog 规 则 “〈 或 者 说 Datalog 程 
序 ) 可 以 使 用 多 个 标准 算法 中 的 任意 一 个 算法 进行 求 值 。 
Datalog 规 则 : 一 个 Datalog 规 则 由 一 个 规则 体 《〈 前 提 )》 和 一 个 规则 














头 〈《 结 果 ) 组 成 。 规 则 体 是 一 个 或 多 个 原子 ， 而 规则 头 则 是 一 个 原 
季 。 原 子 就 是 作用 于 一 组 参数 的 断言 ， 这 些 参数 的 值 可 以 是 变量 或 
和 常量。 规则 体 的 多 个 原子 通过 逻辑 AND 连 接 ， 而 规则 体 中 的 原子 可 
能 是 断言 的 否定 形式 。 

1DB 和 EDB 断 言 : 一 个 Datalog 程 序 中 的 EDB 上 断言 的 真 值 事实 在 事先 给 
出 。 在 一 个 数据 流 分 析 中 ， 这 些 断 言 对 应 于 那些 可 以 从 被 分 析 代 码 
中 获取 的 事实 。IDB 断 言 本 身 是 通过 规则 定义 的 。 在 一 个 数据 流 分 
析 中 ， 它 们 对 应 于 我 们 想 从 被 分 析 代 码 中 抽取 的 信息 。 

Datalog 程 序 的 求 值 : 我 们 应 用 规则 的 方法 是 把 规则 中 的 变量 蔡 换 
为 一 些 能 够 使 该 规则 体 取 真 值 的 常量 。 当 我 们 做 了 这 样 的 蔡 换 后 ， 
就 可 以 推 怕 将 规则 头 中 的 变量 进行 相同 蔡 换 后 得 到 的 断言 也 为 真 。 
这 个 操作 不 断 重复 ， 直 到 不 能 推导 出 更 多 的 事实 为 止 。 

Datalog 程 序 的 增 量 求 值 : 通过 增 量 求 值 的 方法 可 以 改进 Datalog 程 
序 的 求 值 效率 。 我 们 将 进行 多 轮 求 值 。 在 每 一 轮 中 ， 我 们 只 考虑 如 
下 的 变量 到 常量 的 替换 方法 : 它 使 得 规则 体 中 至 少 有 一 个 原子 是 刚 
刚 在 上 一 轮 中 被 发 现 的 事实 。 

Java 指 针 分 析 : 我 们 可 以 用 一 个 框架 对 Java 中 的 指针 分 析 建 模 。 在 
这 个 框架 中 ， 有 一 些 指向 堆 对 象 的 引用 变量 ， 而 这 些 堆 对 象 中 又 有 
一 些 字 段 可 以 指向 其 他 堆 对 象 。 可 以 用 一 个 Datalog 程 序 写 出 一 个 上 
下 文 无 关 的 指针 分 析 方 法 。 这 个 分 析 可 以 推导 出 两 种 事实 ， 一 个 变 
0 
对 象 。 

使 用 类 型 信息 改进 指针 分 析 : 引用 变量 所 指向 的 推 对 象 的 类 型 要 人 么 
和 变量 类 型 相同 ， 要 么 是 变量 类 型 的 子 类 型 。 如 果 我 们 能 够 利用 这 
个 事实 ， 我 们 就 可 以 得 到 更 加 精确 的 指针 分 析 结 果 。 

过 程 间 指针 分 析 : 为 了 进行 过 程 间 分 析 ， 我 们 必须 增加 一 些 规则 来 
反映 参数 是 如 何 传递 的 ， 返 回 值 是 如 何 被 赋 给 变量 的 。 这 些 规则 实 
质 上 和 把 一 个 引用 变量 复制 到 另 一 个 引用 变量 的 规则 相同 。 

寻找 调用 图 : 因为 Java 具 有 虚 方 法 ， 过 程 间 分 析 要 求 我 们 首先 界定 
有 哪些 过 程 可 能 在 一 个 给 定 调 用 点 上 被 调用 。 找 出 哪里 可 以 调用 哪 
些 程序 的 限制 的 基本 方法 是 分 析 对 象 的 类 型 ， 并 利用 下 面 的 事实 : 
一 个 虚 方法 调用 所 指向 的 实际 方法 必须 属于 适当 的 类 。 

上 正文 相关 分 析 : 当 过 程 具 有 递归 特性 时 ， 我 们 必须 把 调用 串 中 所 
包含 的 信息 浓缩 到 有 限 多 个 上 下 文中 。 做 这 件 事 的 有 效 方法 之 一 是 
从 调用 串 中 删除 某 个 过 程 调 用 与 之 相互 递归 调用 的 另 一 个 过 程 〈 可 
能 是 调用 者 本 身 ) 的 调用 点 。 使 用 这 样 的 表示 方式 ， 我 们 可 以 修改 
过 程 内 指针 分 析 的 规则 ， 使 断言 中 包含 上 下 文 信息 。 这 个 方法 模拟 





















































了 基于 克隆 的 分 析 。 

二 分 决策 图 : BDD 是 一 种 使 用 带 根 的 DAG 表 示 布 尔 函 数 的 简洁 方 
法 。 内 部 结 点 对 应 于 布尔 变量 ， 并 且 有 两 个 子 结 点 ， 即 低 子 结 点 
(表示 0 值 ) 和 高 子 结 点 (表示 1 值 )。 图 中 有 标号 分 别 为 0O 和 1 的 两 
个 叶子 结 点 。 一 个 真 假 赋值 使 得 被 表示 函数 取 真 值 当 且 仅 当 从 图 的 
根 结 点 有 一 条 如 下 的 路 径 到 达 叶 子 结 点 1。 这 条 路 径 从 根 结 点 开 
始 ， 如 果 一 个 结 点 上 的 变量 取 值 为 0， 那 么 我 们 就 走 到 低 子 结 点 ， 
否则 走 到 高 子 结 点 。 

BDD 和 关系 : 一 个 BDD 可 以 作为 Datalog 程 序 中 的 断言 的 简洁 表示 方 
法 。 常 量 被 编码 为 一 组 布尔 变量 的 真 假 赋 值 ，BDD 表 示 的 函数 为 真 
当 且 仅 当 它 的 布尔 变量 表示 了 使 这 个 断言 取 真 值 的 事实 。 

使 用 BDD 实 现 数据 流 分 析 : 任何 可 以 被 表示 为 Datalog 规 则 的 数据 流 
分 析 都 可 以 使 用 BDD 上 的 操作 来 实现 。 这 些 BDD 表 示 了 规则 所 涉 
断言 。 这 个 表示 方法 经 常会 得 到 一 个 比 其 他 已 知 方法 更 加 高 效 
实现。 
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[11 实 际 上 是 从 返回 语句 到 跟 在 调用 点 之 后 的 指令 的 边 。 


21 严格 地 讲 ， 这 样 的 项 是 从 函数 符号 构造 而 来 的 。 它 们 大 大 增加 
了 Datalog 实 现 的 复杂 性 。 但 是 ， 只 有 在 不 把 事情 复杂 化 的 情况 下 我 们 
才 会 使 用 少量 运算 符 ， 比 如 常量 的 加 法 和 减法 。 


[3] 请 记 住 ， 变 量 是 通过 它们 所 属 的 方法 进行 区 分 的 ， 因 此 有 很 多 
个 名 字 为 this 的 变量 ， 程 序 中 的 每 个 方法 有 一 个 this 变 量 。 


附录 A 一 个 完整 的 编译 虱 前 端 


这 个 附录 给 出 了 一 个 完整 的 编译 占 前 问 ， 它 是 基于 2.5 节 至 2.8 市 中 
非 正 式 描 述 的 简单 编译 器 编写 的 。 和 第 2 章 的 主要 不 同 之 处 在 于 ， 这 个 
前 端 像 6.6 节 中 描述 的 那样 为 布尔 表达 式 生 成 跳 转 代码 。 我 们 首先 给 出 
源 语 言 的 语法 。 描 述 这 个 语法 所 用 的 文法 需要 进行 调整 ， 以 适应 目 顶 同 
下 的 语法 分 析 技 术 。 


这 个 翻译 器 的 Java 代 人 码 由 五 个 包 组 成 : main、lexer、symbol、 
parser 和 inter。 包 inter 中 包含 的 类 处 理 用 抽象 语法 表示 的 语言 结构 。 
因为 语法 分 析 器 的 代码 和 其 他 各 个 包 交 互 ， 所 以 它 将 在 最 后 描述 。 每 个 
包 存 放 在 一 个 独立 的 目录 中 ， 每 个 类 都 有 一 个 单独 的 文件 。 


作为 语法 分 析 喜 的 输入 时 ， 源 程序 就 是 一 个 由 词法 单元 组 成 的 流 ， 
因此 面 同 对 象 特 性 和 语法 分 析 器 的 代码 之 间 没 有 什么 关系 。 当 由 语法 分 
析 器 输出 时 ， 源 程序 就 是 一 棵 抽象 语法 树 ， 树 中 的 结构 或 结 点 被 实现 为 
对 象 。 这 些 对 象 负责 处 理 下 列 工 作 : 构造 一 个 抽象 语法 树 结 点 、 类 型 检 
查 、 生 成 三 地 址 中 间 代 码 《〈 见 包 inter) 。 











A.1 源 语言 


这 个 语言 的 一 个 程序 由 一 个 块 组 成 ， 该 块 中 包含 可 选 的 声明 和 语 
句 。 语 法 符号 basic 表 示 基 本 类 型 。 


program — DocK 
block — {decls stmts} 
decls 一 decls decl | ¢ 
decl 一 type id; 
type 一 type [num] | basic 
stmts 一 stmts stmt | ¢ 


把 赋值 当 作 一 个 语句 (而 不 是 表达 式 中 的 运算 符 〉 可 以 简化 翻译 工作 。 


面 问 对 象 与 面 同步 又 








在 一 个 面向 对 象 方法 中 ， 一 个 构造 的 所 有 代码 都 集中 在 这 个 与 构 
造 对 应 的 类 中 。 但 是 在 面向 步 又 的 方法 中 ， 这 个 方法 中 的 代码 是 按照 
步骤 进行 组 织 的 ， 因 此 一 个 类 型 检查 过 程 中 对 每 个 构造 都 有 一 个 case 
分 文 ， 且 一 个 代码 生成 过 程 对 每 个 构造 也 都 有 一 个 case 分 文 ， 等 等 。 














对 这 两 者 进行 衡量 ， 可 知 使 用 面 癌 对 象 方法 会 使 得 改变 或 增加 一 
个 构造 《比如 for 语 句 ) 变 得 较 容 易 ;， 而 使 用 面 癌 步骤 的 方法 会 使 得 
改变 或 增加 一 个 步骤 《比如 类 型 检查 ) 变 得 比较 容易 。 使 用 对 象 来 实 
现时 ， 增 加 一 个 新 的 构造 可 以 通过 写 一 个 自 包含 的 类 来 实现 ， 但 是 如 
果 要 改变 一 个 步 怠 ， 比 如 插入 自动 类 型 转换 的 代码 ， 束 需要 改变 所 有 
受 影响 的 类 。 使 用 面 回 步 又 的 方式 时 ， 增 加 一 个 新 构造 可 能 会 引起 各 
个 步骤 中 的 多 个 过 程 的 改变 。 














stmt 一 loc= bool; 

| 还 (bool ) stmt 

| 1f ( bool ) stmt else stmt 
| while (bool ) stmt 
| do stmt while ( bool ) ; 
| break ; 

| Vblock 

一 loc[ boo0l] | id 


loc 


表达 式 的 产生 式 处 理 了 运算 符 的 结合 性 和 优先 级 。 它 们 对 每 个 优先 
级 级 别 痢 使 用 了 一 个 非 终 结 符 写 ， 而 非 终 结 符号 factor 用 来 表示 括 写 中 
的 表达 式 、 标 识 符 、 数 组 引用 和 和 常量。 


bool 一 Vbool || join | join 
Join 一 join && equality | equality 
equality — equality== rel | equality != rel | rel 
rel 一 erpr < expr | ezZpr <= ezpr | expr >= expr | 
ceZD7 > erpr | ezpr 
expr erpr+ term | erpr- term | term 
term > term* unary | term/ unary | unary 
unary 一 |! unary | - unary | factor 
factor 一 (bool) | loc | num | real | true | false 


A.2 Main 


程序 的 执行 从 类 Main 的 方法 main 开 始 。 方 法 main 创 建 了 一 个 词法 分 
析 器 和 一 个 语法 分 析 器 ， 然 后 调用 语法 分 析 器 中 的 方法 program。 


1) package main; // 文件 Main.java 

2) import java.io.*; import lexer.*; import parser.*; 

3) public class Main { 

4) public static void main(String[] args) throws IOException { 


5) Lexer lex = new Lexer(); 

6) Parser parse = new Parser(lex); 
7) parse.program(); 

8) System.out .write(’\n’); 

9) } 


A.3 词法 分 析 器 





包 1lexer 是 2.6.5 节 中 的 词法 分 析 器 的 代码 的 扩展 。 类 Tag 定 义 了 各 个 
词法 单元 对 应 的 常量 : 
1) package lexer; // 文件 Tag.java 


2) public class Tag { 
3) public final static int 


4) AND = 256, BASIC = 257, BREAK = 258, DO = 259, ELSE = 260， 
5) EQ = 261, FALSE = 262, GE = 263, ID = 264, IF = 265， 
6) INDEX = 266, LE = 267, MINUS = 268, NE = 269, NUM = 270， 
7) OR = 271， REAL = 272, TEMP = 273, TRUE = 274, WHILE = 275; 
8) } 


其 中 的 三 个 常量 INDEX、MINUs 和 TEMP 不 是 词法 单元 ， 它 们 将 在 抽象 语法 
树 中 使 用 。 


类 Token 和 Num 和 2.6.5 节 的 相同 ， 但 是 增加 了 方法 tostring: 


1) package lexer; // 文件 Token.java 

2) public class Token { 

3) public final int tag; 

4) public Token(int t) { tag = t; } 

5) public String toString() {return "" + (char)tag;} 
6) } 


1) package lexer; // 文 件 Num.java 

2) public class Num extends Token { 

3) public final int value; 

4) public Num(int v) { super(Tag.NUM); value = Vi } 
5) public String toString() { return "" + value; } 
) 


类 Word 用 于 管理 保留 字 、 标 识 符 和 像 && 这 样 的 复合 词法 单元 的 词素 。 
它 也 可 以 用 来 管理 在 中 间 代 码 中 运算 符 的 书写 形式 ;比如 单 目 减 写 。 例 
如 ， 源 文本 中 的 -2 的 中 间 形 式 是 minus 2。 





) package lexer; // 文件 Word.java 

2) public class Word extends Token { 

) public String lexeme = ""; 

) public Word(String s, int tag) { super(tag); lexeme = s; } 
5) public String toString() { return lexeme; } 

6) public static final Word 


7) and = new Word( "&&", Tag.AND ), or = new Word( "||", Tag.0R ), 
8) eq = new Word( "==", Tag.EQ ), ne = new Word( "!=", Tag.NE ), 
9) le = new Word( "<=", Tag.LE ), ge = new Word( ">=", Tag.GE ), 
10) minus = new Word( "minus", Tag.MINUS ) ， 

11) True = new Word( "true", Tag.TRUE ), 

12) False = new Word( "false", Tag.FALSE ), 

13) temp = new Word( "t", Tag.TEMP ); 

14) } 


类 Real 用 于 处 理 浮 点 数 : 


package lexer; // 文件 Real.java 


) 
) 
) public final float value; 

) public Real(float v) { super(Tag.REAL); value = vi } 
) public String toString() { return "" + value; } 

) 


如 我 们 在 2.6.5 市 中 讨论 的 ， 类 Lexer 的 主 方法 ， 即 函数 scan， 识 别 数 
字 、 标 识 符 和 保留 字 


类 Lexer 中 的 第 9 一 13 行 保留 了 选 定 的 关键 字 。 第 14 一 16 行 保留 了 在 
其 他 地 方 定 义 的 对 象 的 词素 。 对 象 word.True 和 word.False 在 类 word 中 和 定 
3 对 应 于 基本 类 型 int、char、boo1 和 float 的 对 象 在 类 Type 中 定义 。 
类 Type 是 word 的 一 个 子 类 。 类 Type 来 自 包 symbols 。 


1) package lexer; // 文件 Lexer.java 

2) import java.io.*; import java.util.*; import symbols.*; 
3) public class Lexer { 

4) public static int line = 1; 

5) char peek = ?，; 

6) Hashtable words = new Hashtable(); 

7) void reserve(Word w) { words.put(w.lexeme, w); } 
8) public Lexer() { 

9) reserve( new Word("if'", Tag .IF) )s 

10) reserVe( new Word("else", Tag.ELSE) ); 

| reserVe( new Word("while", Tag.WHILE) ) ; 

12) reserve( new Word("do', Tag .D0) ys 

13) reserve( new Word("break", Tag.BREAK) ); 

14) reserve( Word.True ); reserve(l Word.False ); 
15) reserve(l Type.Int ); reserve( Type.Char ); 
16) reserve( Type.Bool ); reserve( Type.Float ); 
17) } 


函数 readch() 〈 第 18 行 ) 用 于 把 下 一 个 输入 字符 读 到 变量 peek 中 。 名 
字 readch 被 复 用 或 重 载 ，〔〈 第 19 一 24 行 ) ， 以 便 帮助 识别 复合 的 词法 单 
元 。 比 如 ， 一 看 到 输入 字符 <， 调 用 readch ("=") 就 会 把 下 一 个 字符 读 
入 peek， 并 检查 它 是 人 否 为 =。 


18) void readch() throws IOException { peek = (char)System.in.read(); } 
19) boolean readch(char c) throws IOException { 


20) readch(); 

21) if( peek != c ) return false; 
22) peek = ?)’; 

23) return true; 

24) } 


函数 scan 一 开始 衣 先 略 过 所 有 的 空 日 字符 《第 26 一 30 行 ) 。 它 衣 先 试图 
识别 像 <= 这 样 的 复合 词法 单元 〈 第 31 一 34 行 ) 和 像 365 及 3.14 这 样 的 数 
字 【 第 45 一 58 行 ) 。 如 果 不 成 功 ， 它 就 试图 读 入 一 个 字符 串 〈 第 59 一 70 
行 ) 。 





25) public Token scan() throws IOException { 

26) for( ; ; readch() ) { 

27) if( peek == ? ’ || peek == ’\t’ ) continue; 

28) else if( peek == ’\n’ ) line = line + 1; 

29) else break; 

30) 于 

31) switch( peek ) { 

32) case ’'&’: 

33) if( readch(’&’) ) return Word.and; else return new Token(’&’); 
34) case |: 
35) if( readch(’|’) ) return Word.or; else return new Token(’|’); 
36) case ?=): 

37) if( readch(’=’) ) return Word .eq; else return new Token(’=’); 
38) case 212: 

39) if( readch(’=’) ) return Word.ne; else return new Token(’!’); 
40) case <): 

41) if( readch(’=’) ) return Word.le; else return new Token(’<’); 
42) case ?>?: 

43) if( readch(’=’) ) return Word.ge; else return new Token(’>’); 
44) } 

45) if( Character.isDigit(peek) ) { 

46) int v = 0; 

47) do { 

48) V = 10*v + Character.digit(peek, 10); readch(); 

49) } while( Character.isDigit(peek) ); 

50) if( peek != ’.’ ) return new Num(v); 

51) float x = vi float d = 10; 

52) forCis) 4 

53) readch(); 

54) if( ! Character.isDigit(peek) ) break; 

55) X = x + Character.digit(peek, 10) / di d = d*10; 

56 » 

57) return new Real(x); 

58) 由 

59 if( Character.isLetter(peek) ) { 

60) StringBuffer b = new StringBuffer(); 

61) do { 

62 b.append(peek); readch(); 

63 } while( Character.isLetterOrDigit(peek) ); 

64) String s = b.toString(); 

65) Word w = (Word)words.get(s); 

66 if( w != null ) return Vi 

67 W = new Word(s, Tag.1D); 

68 words.put(s, Ww); 

69) return Vi 

70) } 


最 后 ，peek 中 的 任意 字符 部 被 作为 词法 单元 返回 (第 71~~72 行 )。 


Token tok = new Token(peek); peek = : ); 
return tok; 


A.4 符号 表 和 类 型 


包 symbols 实 现 了 符号 表 和 类 型 。 


类 Env 实 质 上 和 图 2-37 中 的 代码 一 样 。 


类 Env 把 字符 串 词法 单元 映射 为 类 


Id 的 对 象 。> 


式 和 语句 的 类 一 起 都 在 包 inter 中 定义 。 


1) package symbols; 
2) import java.util.*; import lexer.*; import inter.*; 
SPs class Env { 


5) 


private Hashtable table; 


protected Env prev; 
public Env(Env n) { table = new Hashtable(); prev = n; } 
Id i) { table.put(w, i); } 


public void put(Token V， 
public Id get(Token w) { 


关 Lexer 把 字符 串 映射 为 字 ， 
类 Id 和 其 他 的 对 应 于 表达 


// 文件 Env.java 


for( Env e = this; e != null; e = e.prev ) 
Id found = (Id)(e.table.get(w)); 
if( found != null ) return found; 

} 


return null; 


我 们 把 类 Type 定 义 为 类 word 的 子 类 ， 因 为 像 int 这 样 的 基本 类 型 名 
字 就 是 保留 字 ， 将 被 词法 分 析 器 从 词素 映射 为 适当 的 对 象 。 对 应 于 基本 
类 型 的 对 象 是 Type.Int、Type.Float、Type.Char 和 Type.Bool 〈 第 7 一 10 
行 )。 这 些 对 象 从 超 类 中 继承 了 字段 tag， 相 应 的 值 被 设置 
为 Tag. BASIC， 因 此 语法 分 析 占 以 同样 的 方式 处 理 它们 。 


public int width = 0; 
public Type(String s， 


Int = 
Float = 
Char = 
Bool = 


) package symbols; 

) import lexer.*; 

3) public class Type extends Word { 
) 

) 

) 


new Type 人 
new Type( 
new Type( 
new Type( 


Ld int 1 5 


"float", 


uchar" 
npbool" a 


// 文件 Type.java 


//width 用 于 存储 分 配 
int tag, int w) { super(s, tag); width = w; } 
public static final Type 


Tag.BASIC, 4 )， 
Tag.BASIC, 8 )， 


Tag.BASIC, 
Tag.BASIC, 


Lb Ys 
1 95 


函数 numeric 〈 第 11 一 14 行 ) 和 max 【第 15 一 20 行 ) 可 用 于 类 型 转换 。 


11) public static boolean numeric(Type p) { 


12) if (P == Type.Char || p == Type.Int || p == Type.Float) return true; 
13) else return false; 

14) 下 

15) public static Type max(Type pli, Type p2 ) 1{ 

16) if ( ! numeric(p1) || ! numeric(p2) ) return null; 

17) else if ( pl == Type.Float || p2 == Type.Float ) return Type.Float; 
18) else if ( pl == Type.Int || p2 == Type.Int  ) return Type.Int; 
19) else return Type.Char; 

20) 

21) 


在 两 个 “数字 ”类 型 之 间 允 许 进 行 类 型 转换 ,，“ 数 字 ” 类 型 包括 Type. char、 
Type.Int 和 Type.Float。 当 一 个 算术 运算 符 应 用 于 两 个 数字 类 型 时 ， 结 
果 类 型 是 这 两 个 类 型 的 “max” 值 。 


数组 是 这 个 源 语 言 中 唯一 的 构造 类 型 。 在 第 7 行 中 调用 super 设 置 字 
段 width 的 值 。 这 个 值 在 计算 地 址 时 是 必 不 可 少 的 。 它 同时 也 把 lexeme 
和 tok 设 置 为 默认 值 ， 这 些 值 没有 被 使 用 。 


1) package symbols; // 文件 Array.java 
2) import lexer.*; 
3) public class Array extends Type +{ 


4) public Type of; // 数组 的 元 素 类 型 

5) public int size = 1; // 元 素 个 数 

6) public Array(int sz, Type p) { 

7) super("[]", Tag.INDEX, sz*p.width); size = sz; of = p; 

8) 3 

9) public String toString() { return "[" + size + "] " + of.toString(); } 
10) } 


A.5 表达 式 的 中 间 代 码 


包 inter 包 含 了 Node 的 类 层次 结构 。Node 有 两 个 子 类 : 对 应 于 表达 
式 结 点 的 Expr 和 对 应 于 语句 结 点 的 Stmt。 本 节 介 绍 Expr 和 它 的 子 
类 。Expr 的 某 些 方法 处 理 布尔 表达 式 和 跳 转 代码 ， 这 些 方法 和 Expr 的 其 
他 子 类 将 在 A.6 节 中 讨论 。 


抽象 语法 树 中 的 结 点 被 实现 为 类 Node 的 对 象 。 为 了 报告 错误 ， 字 段 
lexline (文件 Node.java 的 第 4 行 ) 保存 了 本 结 点 对 应 的 构造 在 源 程序 中 
的 行 号 。 第 7 一 10 行 用 来 生成 三 地 址 代码 。 











1) package inter; // 文件 Node.java 

2) import lexer.*; 

3) public class Node { 

4) int lexline = 0; 

5) Node() { lexline = Lexer.line; } 

6) void error(String s) { throw new Error("near line "+lexline+": "+s); } 
7) static int labels = 0; 

8) public int newlabel() { return ++labels; } 

9) public void emitlabel(int i) { System.out.print("L" + i + ":"); } 
10) public void emit(String s) { System.out.println("\t" + s); } 
11)} 


表达 式 构 造 被 实现 为 Expr 的 子 类 。 类 Expr 包 含 字 段 op 和 type (文件 
Expr .java 的 第 4 一 5 行 ) ， 分 别 表 示 了 一 个 结 点 上 的 运算 符 和 类 型 。 


1) package inter; // 文件 Ezpr.java 

2) import lexer.*; import symbols.*; 

3) public class Expr extends Node { 

4) public Token op; 

5) public Type type; 

6) Expr(Token tok, Type p) { op = tok; type = p; } 


方法 gen (第 7 行 ) 返回 了 一 个 “项 *”， 该 项 可 以 成 为 一 个 三 地 址 指令 
的 右 部 。 给 定 一 个 表达 式 E=E1+E,， 方法 gen 返 回 一 个 项 Xi+Xo?， 其 中 X1 
和 x, 分 别 是 存放 El 和 E, 值 的 地 址 。 如 果 这 个 对 象 是 一 个 地 址 ， 就 可 以 返 
回 this 值 。Expr 的 子 类 通常 会 重新 实现 gen。 


方法 reduce (第 8 行 ) 把 一 个 表达 式 计 算 〈 或 者 说 “ 归 约 ”) 成 为 一 





个 单一 的 地 址 。 也 就 是 说 ， 它 返回 一 个 常量 、 一 个 标识 符 ， 或 者 一 个 临 
时 名 字 。 给 定 一 个 表达 式 E， 方 法 reduce 返 回 一 个 存放 下 的 值 的 临时 变量 
t。 如 果 这 个 对 象 是 一 个 地 址 ， 那 么 this 仍然 是 正确 的 返回 值 。 


我 们 把 对 方法 jumping 和 emitjumps (第 9 一 18 行 ) 的 讨论 推迟 到 A.6 
节 中 进行 ， 它 们 为 布尔 表达 式 生 成 跳 转 代码 。 


2) public Expr gen() { return this; } 

8) public Expr reduce() { return this; } 

9) public void jumping(int t, int f) { emitjumps(toString(), t, £f); } 
10) public void emitjumps(String test, int t, int f) { 


11) if( t+ I!=0&&f!=0)1 

12) emit("if * + test + " goto LY + t)3 

13) emit("goto L" + f£); 

14) } 

15) else if( t+ != 0 ) emit("if " + test + " goto L" + +t); 

16) else if( f != 0 ) emit("iffalse " + test + " goto L" + f£f); 
17) else ; // 不 生成 指令 ,因为 t 和 ff 都 直接 穿越 

18) 上 

19) public String toString() { return op.toString(); } 

20) } 


因为 一 个 标识 符 束 是 一 个 地 址 ， 类 Id 从 类 Expr 中 继承 了 gen 和 reduce 
的 默认 实现 。 


1) package inter; // 文件 Td.java 

2) import lexer.*; import symbols.*; 

3) public class Id extends Expr 1{ 

4) public int offset; // 相对 地 址 

5) public Id(Word id, Type p, int b) { super(id, p); offset = bi } 
6) } 


对 应 于 一 个 标识 符 的 类 Id 的 结 点 是 一 个 叶子 结 点 。 函 数 调用 
super (id,p) 《文件 Id.java 的 第 5 行 ) 把 id 和 p 分 别 保存 在 继承 得 到 的 字 
段 op 和 type 中 。 字 段 offset (第 4 行 ) 保存 了 这 个 标识 符 的 相对 地 址 。 


类 op 提供 了 reduce 的 一 个 实现 〈 文 件 op.java 的 第 5 一 10 行 ) 。 这 个 
类 的 子 类 包括 : 表示 算术 运算 符 的 子 类 Arith， 表 示 单 目 运算 符 的 子 
类 unary 和 表示 数组 访问 的 子 类 Access。 这 些 子 类 都 继承 了 这 个 实现 。 
在 每 种 情况 下 ，reduce 调 用 gen 来 生成 一 个 项 ， 生 成 一 个 指令 把 这 个 项 
赋值 给 一 个 新 的 临时 名 字 ， 并 返回 这 个 临时 名 字 。 


1) package inter; // 文件 Op.7Tava 

2) import lexer.*; import symbols.*; 

3) public class Op extends Expr { 

4) public Op(Token tok, Type p) { super(tok, p); } 


5) public Expr reduce() { 

6) Expr x = gen(); 

7) Temp t = new Temp(type) ; 

8) emit( t.toString() + " = " + x.toString() ); 
9) return 七 ; 

10) } 

11) } 


类 Arith 实 现 了 双 目 运算 符 ， 比 如 + 和 *。 构 造 函 数 Arith 首 先 调用 
super (tok,null) (第 6 行 ) ， 其 中 tok 是 一 个 表示 该 运算 符 的 词法 单 
元 ，nul1 是 类 型 的 占 位 符 。 相应 的 类 型 在 第 7 行使 用 函数 Type .max 来 确 
定 ， 这 个 函数 检查 两 个 运算 分 量 是 否 可 以 被 类 型 强制 为 一 个 常见 的 数字 
类 型 ，Type.max 的 代码 在 A.4 节 中 给 出 。 如 果 它 们 能 够 进行 目 动 类 型 转 
type 就 被 设置 为 结果 类 型 ， 否 则 就 报告 一 个 类 型 错误 (第 8 行 )。 

个 简单 编译 器 检查 类 型 ， 但 是 它 并 不 插入 类 型 转换 代码 。 














1) package inter; // 文件 Arith.java 
2) import lexer.*; import symbols.*; 

3) public class Arith extends Op { 

4) public Expr exprl, expr2; 

5) public Arith(Token tok, Expr xi, Expr x2) ({ 


6) super(tok, null); exprl = xi; expr2 = x2; 

7) type = Type.max(expri.type, expr2.type); 

8) if (type == null ) error('"type error'); 

9) 

10) public Expr gen() { 

11) return new Arith(op, expri.reduce(), expr2.reduce()); 
12) } 

13) public String toString() { 

14) return expri.toString()+" "+op.toString()+" "texpr2.toString(); 
15) } 

16) } 


方法 gen 把 表达 式 的 子 表达 式 归 和约 为 地 址 ， 并 将 表达 式 的 运算 符 作 

用 于 这 些 地 址 (文件 Arith.java 的 第 11 行 )， 从 而 构造 出 了 一 个 三 地 址 指 

令 的 右 部 。 比 如 ， 假 设 gen 在 atb*c 的 根部 被 调用 。 其 中 对 reduce 的 调用 

返回 a 作 为 子 表达 式 a 的 地 址 ， 并 返回 t 作 为 bxc 的 地 址 。 同 时 ，reduce 还 

0 b*c。 方 法 gen 返 回 了 一 个 新 的 Arith 结 点 ， 其 中 的 运算 符 是 
运算 分 量 是 地 址 a 和 t。 山 





值得 注意 的 是 ， 和 所 有 其 他 表达 式 一 样 ， 临 时 名 字 也 有 类 型 。 
此 ， 构 造 冰 数 Temp 被 调用 时 有 一 个 类 型 参数 〈 文 件 Temp.java 的 第 6 
行 ) 。 包 


1) package inter; // 文件 Temp.java 

2) import lexer.*; import symbols.*; 

3) public class Temp extends Expr { 

4) static int count = 0; 

5) int number = 0; 

6) public Temp(Type p) { super(Word.temp, p); number = ++count; } 
7) public String toString() { return "t" + number; } 

8) 


类 unary 和 类 Arith 对 应 ， 但 是 处 理 的 是 单 目 运算 符 : 


) package inter; // 文件 Unary.java 

) import lexer.*; import symbols.*; 

) public class Unary extends 0p { 

) public Expr expr; 

) public Unary(Token tok, Expr x) { // 处 理 单 目 减法 ， 对 ! 的 处 理 见 Not 
) super(tok, null); expr = x; 

) type = Type.max(Type.Int，expr.type) ; 

) if (type == null ) error("type error'"); 

) 六 

) public Expr gen() { return new Unary(op, expr.reduce()); } 

) public String toString() { return op.toString()+" "+expr.toString(); } 
) 


A.6 布尔 表达 式 的 跳 转 代 码 


布尔 表达 式 B 的 跳 转 代码 由 方法 jumping 和 生成。 这 个 方法 的 参数 是 两 
个 标号 t 和 f， 它 们 分 别称 为 表达 式 B 的 true 出 口 和 false 出 口 。 如 果 B 的 值 
为 真 ， 代 码 中 就 包含 一 个 目标 为 t 的 跳 转 指令 ;， 如 果 B 的 值 为 假 ， 束 有 一 
个 目标 为 f 的 指令 。 按 照 惯 例 ， 特 殊 标 号 0 表示 控制 流 从 了 B 罕 越 ， 到 达 B 
的 代码 之 后 的 下 一 个 指令 。 


我 们 从 类 constant 开 始 。 第 4 行 上 的 构造 函数 constant 的 参数 是 一 个 
词法 单元 tok 和 一 个 类 型 p。 它 在 抽象 语法 树 中 构造 出 一 个 标号 为 tok、 
类 型 为 p 的 叶子 结 点 。 为 方便 起 见 ， 构 造 函 数 constant 被 重 载 (第 5 
行 ) ， 重 载 后 的 构造 函数 可 以 根据 一 个 整数 创建 一 个 常量 对 象 。 








1) package inter; // 文 件 Constant.java 

2) import lexer.*; import symbols.*; 

3) public class Constant extends Expr { 

4) public Constant(Token tok, Type p) { super(tok, p); } 
5) public Constant(int i) { super(new Num(i), Type.Int); } 
6) public static final Constant 


7) True = new Constant (Word.True, Type.Bool)， 

8) False = new Constant (Word.False, Type.Boo0l); 

9) public void jumping(int t, int f) { 

10) if ( this == True && t != 0 ) emit("goto L" + t); 

11;) else if ( this == False && f != 0) emit("goto L" + f£); 
12) } 

13) } 


方法 jumping《〈 文 件 Constant.java 的 第 9 一 12 行 ) 有 两 个 参数 : 标号 
为 t 和 f。 如 果 这 个 常量 是 静态 对 象 True 〈 在 第 7 行 中 定义 ) ，t 不 是 特殊 
标号 0， 那 么 就 会 生成 一 个 目标 为 t 的 跳 转 指令 。 和 否则， 如 果 这 是 对 
象 False (在 第 8 行 中 定义 〉 且 f 非 零 ， 那 么 就 会 生成 一 个 目标 为 f 的 跳 转 


指令 。 





类 Logical 为 类 or、And 和 Not 提 供 了 一 些 常 见 功 能 。 字 段 expr1 和 
expr2《〈 第 4 行 ) 对 应 于 一 个 逻辑 运算 符 的 运算 分 量 《〈 虽 然 类 Not 实 现 了 
一 个 单 目 运算 符 ， 为 方便 起 见 ， 我 们 还 是 把 它 当 作 Logical 的 子 类 ) 。 
构造 函数 Logical (tok,a,b) 《第 5 一 10 行 ) 构造 出 了 一 个 语法 树 的 结 
点 ， 其 运算 符 为 tok， 而 运算 分 量 为 x 和 b。 在 完成 这 些 工作 时 ， 它 调用 





函数 check 来 保证 a 和 b 都 是 布尔 类 型 。 方 法 gen 将 会 在 本 市 的 最 后 讨论 。 


1) package inter; // 文件 Logical.java 
2) import lexer.*; import symbols.*; 


3) public class Logical extends Expr +{ 
4) public Expr expri, expr2; 
SY Logical(Token tok, Expr x1l, Expr x2) { 
6) super(tok, null); // 开始 时 类 型 设置 为 空 
7) exprl = xi; expr2 = x2; 
8) type = check(expri.type, expr2.type); 
9) if (type == null ) error("type error'"); 
10) } 
11) public Type check(Type pl, Type p2) + 
12) if ( pl == Type.Bool && p2 == Type.Bool ) return Type.Bool; 
13) else return null; 
14) } 
15) public Expr gen() { 
16) int f = newlabel(); int a = newlabel(); 
17) Temp temp = new Temp(type); 
18) this.jumping(0,f) ; 
19) emit(temp .toString() + " = true') ; 
20) emit("goto L" + a); 
21) emitlabel(f); emit(temp.toString() + " = false"); 
22) emitlabel (a); 
23) return temp; 
24) } 
25) public String toString() { 
26) return expri.toString()+" "+op.toString()+" "+expr2.toString(); 
27) 二 
28) } 


在 类 or 中 ， 方 法 jumping《〈 第 5 一 10 行 ) 生成 了 一 个 布尔 表达 式 
B=BiIB， 的 跳 转 代 码 。 当 前 假设 B 的 true 出 口 t 和 false 出 口 f 都 不 是 特殊 标 
写 0。 因 为 如 果 B1 为 真 ，B 必 然 为 真 ， 所 以 B1 的 true 出 口 必然 是 t:， 而 它 
的 false 出 口 对 应 于 B, 的 第 一 条 指令 。B, 的 true 和 false 出 口 和 B 的 相应 出 口 
相同 。 


1) package inter; // 文件 Or.java 

2) import lexer.*; import symbols.*; 

3) public class 0r extends Logical { 

4) public 0r(Token tok, Expr x1, Expr x2) { super(tok, x1, x2); } 
5) public void jumping(int t, int f) { 

6) int label = t !=0?t : newlabel(); 


0 expr1i.jumping(label, 0); 

8) expr2.jumping(t ,f); 

9) if( t == 0 ) emitlabel(label); 
10) } 


在 一 般 情 况 下 ，B 的 true 出 口 t 可 能 是 特殊 标号 0。 变 量 label 〈 文 件 
or.java 的 第 6 行 ) 保证 了 Bi 的 true 出 口 被 正确 地 设置 为 B 的 代码 的 结尾 
处 。 如 果 t 为 0， 那 么 label 被 设置 为 一 个 新 的 标 写 ， 并 在 B1 和 B, 的 代码 
被 生成 后 再 生成 这 个 新 标号 。 


类 And 的 代码 和 or 的 代码 类 似 。 





1) package inter; // 文件 And.java 
2) import lexer.*; import symbols.*; 
3) public class And extends Logical { 


) 
4) public And(Token tok, Expr x1i, Expr x2) { super(tok, xi, x2); } 
5) public void jumping(int t, int f) { 
6) int label =f I!I=07?f : newlabel(); 
和) expr1.jumping(0, label); 
8) expr2.jumping(t,f); 
9) if( f == 0 ) emitlabel(label); 
10) 站 
11) } 


虽然 类 Not 实 现 的 是 一 个 单 目 运算 符 ， 这 个 类 和 其 他 布尔 运算 符 之 
间 仍 然 具 有 相当 多 的 共同 之 处 ， 因 此 我 们 把 它 作为 Logical 的 一 个 子 
类 。 它 的 超 类 具有 两 个 运算 分 量 ， 因 此 在 第 4 行 对 super 的 调用 中 x2 出 现 
了 两 次 。 在 第 5 一 6 行 的 方法 中 ， 只 有 expr2《〈 文 件 Logical.java 的 第 4 行 
上 声明 ) 被 用 到 。 在 第 5 行 ， 方 法 jumping 仅 仅 把 true 出 口 和 false 出 口 对 
调 ， 调 用 expr2.jumping。 








public String toString() { return op.toString()+" "+expr2.toString(); } 


1) package inter; // 文件 Not.java 

2) import lexer.*; import symbols.*; 

3) public class Not extends Logical { 

4) public Not(Token tok, Expr x2) { super(tok, x2, x2); } 

5) public void jumping(int t, int f) { expr2.jumping(f, +); } 
) 

) 


类 Rel 实 现 了 运算 符 <、<=、==、! =、>= 和 和 >。 函数 check (第 5~9 
行 检查 两 个 运算 分 量 是 否 具 有 相同 的 类 型 ， 但 它们 不 是 数组 类 型 。 为 
简单 起 见 ， 这 里 不 允许 类 型 强制 转换 。 








1) package inter; // 文件 Rel.java 

2) import lexer.*; import symbols.*; 

3) public class Rel extends Logical 1 

4) public Rel(Token tok, Expr x1, Expr x2) { super(tok, x1, x2); } 


5) public Type check(Type pi, Type p2) { 
6) if ( pl instanceof Array || p2 instanceof Array ) return null; 
) else if( pl == p2 ) return Type.Bool; 
) else return null; 
ry 
10) public void jumping(int t, int £) { 
) Expr a = expri.reduce(); 
) Expr b = expr2.reduce(); 
) 


String test = a.toString() + " " + op.toString() + " "+ b.toString(); 
14) emitjumps(test, t, £); 


方法 jumping (文件 Reljava 的 第 10 一 15 行 ) 首先 为 子 表达 式 expr1 和 
expr2 生 成 代码 《第 11 一 12 行 ) 。 然 后 它 调用 方法 emitjumps， 这 个 方法 
在 A.5 节 的 文件 Expr.java 中 的 第 10 一 18 行 中 定义 。 如 果 t 和 f 都 不 是 特殊 
标号 0， 那 么 emitjumps 执 行 下 列 代 码 : 


12) emit("if " + test + " goto L" + 七 ); // 文件 Erpr.java 
13) emit("goto L" + £); 


如 果 t 或 f 是 特殊 标 写 0， 那 么 最 多 只 会 生成 一 个 指令 (同样 是 来 自 
文件 Expr.java) : 


15) else if(t!= 0 ) emit("if " + test + " goto L" + 七 ); 
16) else if( f != 0 ) emit("iffalse " + test + " goto L" + f); 
17) else ; // 不 生成 指令 ， 因 为 t 和 f 都 直接 穿越 


在 生成 类 Access 的 代码 时 演示 了 方法 emitjumps 的 男 一 种 用 法 。 源 语 
言 人 允许 把 布尔 值 赋 给 标识 符 和 数组 元 素 ， 因 此 一 个 布尔 表达 式 可 能 是 一 
个 数组 访问 。 类 Access 有 一 个 方法 gen， 用 来 生成 “正常 ”代码 ， 男 一 个 
方法 jumping 用 来 生成 跳 转 代 码 。 方 法 jumping (第 11 行 ) 在 把 这 个 数组 
访问 归 约 为 一 个 临时 变量 后 调用 emitjumps。 这 个 类 的 构造 函数 〈 第 6 一 
9 行 ) 被 调用 时 的 参数 为 一 个 平坦 化 的 数组 a、 一 个 下 标 i 和 该 数组 的 元 
素 类 型 p。 在 生成 数组 地 址 计算 代码 的 过 程 中 完成 了 类 型 检查 。 








) package inter; // 文件 Access.java 

) import lexer.*; import symbols.*; 

) public class Access extends Op { 

) public Id array; 

) public Expr index; 

) public Access(Id a, Expr i, Type p) { // P 是 将 数组 平坦 化 后 的 元 素 类 型 
) super(new Word("[]", Tag.INDEX), p); 

) array = a; index = i; 

) 


10) public Expr gen() { return new Access(array, index.reduce(), type); } 
11) public void jumping(int t,int f) { emitjumps(reduce().toString(),t,f); } 
12) public String toString() { 

return array.toString() + " [ " + index.toString() + " J]"; 


) 
M4) 
) } 


跳 转 代码 还 可 以 被 用 来 返回 一 个 布尔 值 。 本 节 中 较 早 描述 的 

类 Logical 有 一 个 方法 gen〈 第 15 一 24 行 ) 。 这 个 方法 返回 一 个 临时 变量 
temp。 这 个 变量 的 值 由 这 个 表达 式 的 跳 转 代 码 中 的 控制 流 决 定 。 在 这 个 
布尔 表达 式 的 true 出 口 ，temp 被 赋予 true 值 ; 在 false 出 口 ，temp 被 赋予 
false 值 。 这 个 临时 变量 在 第 17 行 声明 。 这 个 表达 式 的 跳 转 代码 在 第 18 
行 生 成 ， 其 中 的 true 出 口 是 下 一 条 指令 ， 而 false 出 口 是 一 个 新 标号 f。 下 
一 条 指令 把 true 值 赋 给 temp〈 第 19 行 )， 后 面 紧 跟 目 标 为 新 标号 a 的 跳 
转 指 令 《〈 第 20 行 ) 。 第 21 行 上 的 代码 生成 标号 f 和 一 个 把 false 赋 给 temp 
的 指令 。 这 个 代码 片段 的 结尾 是 标号 a， 访 标号 在 第 22 行 生成 。 最 后 ， 
gen 返 回 temp 〈 第 23 行 ) 。 





A.7 语句 的 中 间 代 码 


每 个 语句 构造 被 实现 为 stmt 的 一 个 子 类 。 一 个 构造 的 组 成 部 分 对 应 
的 字段 是 相应 子 类 的 对 象 。 例 如 ， 如 我 们 将 看 到 的 ， 类 while 有 一 个 对 
应 于 测试 表达 式 的 字段 和 一 个 子 语句 字段 。 


下 面 的 类 stmt 的 代码 中 的 第 3 一 4 行 处 理 抽 象 语 法 树 的 构造 。 构 造 函 
数 Stmt() 不 做 任何 事情 ， 因 为 相关 处 理工 作 是 在 子 类 中 完成 的 。 静 态 对 
象 Stmt ,Nul1《〈 第 4 行 ) 表示 一 个 空 的 语句 序列 。 








1) package inter; // 文件 Stmt.java 

2) public class Stmt extends Node { 

3) public Stmt() {} 

4) public static Stmt Null = new Stmt(); 

5) public void gen(int b，int a) {} // 调用 时 的 参数 是 语句 开始 处 的 标号 和 语句 的 下 一 条 指令 的 标号 
6) int after = 0; // 保存 语句 的 下 一 条 指令 的 标号 

7) public static Stmt Enclosing = Stmt.Null; // 用 于 break 语句 

8) } 








第 5 一 7 行 处 理 三 地 址 代码 的 生成 。 方 法 gen 被 调用 时 两 个 参数 分 别 
是 标号 a 和 b， 其 中 b 标 记 这 个 语句 的 代码 的 开始 处 ， 而 a 标记 这 个 语句 的 
代码 之 后 的 第 一 条 指令 。 方 法 gen (第 5 行 ) 是 子 类 中 的 gen 方 法 的 占 位 
符 。 子 类 While 和 po 把 它们 的 标号 a 存放 在 字段 after 〈 第 6 行 ) 中 。 当 任 
何 内 层 的 break 语 句 要 跳出 这 个 外 层 构造 时 就 可 以 使 用 这 些 标号 。 对 
象 Stmt .Enclosing 在 语法 分 析 时 被 用 于 跟踪 外 层 构 造 。〈 对 于 包 
含 continue 语 句 的 源 语言 ， 我 们 可 以 使 用 同样 的 方法 来 跟踪 一 
个 continue 语 句 的 外 层 构 造 。) 


类 If 的 构造 函数 为 语句 过 (E)〉 5 构造 一 个 结 点 。 字 段 expr 和 stmt 分 
别 保存 了 E 和 S 对 应 的 结 点 。 请 注意 ， 小 写字 母 组 成 的 expr 是 一 个 类 Expr 
的 字段 的 名 字 。 类 似 地 ，stmt 是 类 为 stmt 的 字段 的 名 字 。 














1) package inter; // 文件 If.java 
2) import symbols.*; 

3) public class If extends Stmt { 

4) Expr expr; Stmt stmt; 

5) public If(Expr x, Stmt s) { 


6) expr = x; stmt = s; 

7) if( expr.type != Type.Bool ) expr.error("boolean required in if"); 
8) 

9) public void gen(int b, int a) { 

10) int label = newlabel(); // stmt 的 代码 的 标号 

11) expr. jumping(0, a); // 为 真 时 控制 流 穿越 ， 为 假 时 转向 a 

12) emitlabel(label); stmt.gen(label, a); 

13) } 

14)} 


一 个 If 对 象 的 代码 包含 了 expr 的 跳 转 代码 ， 然 后 是 stmt 的 代码 。 如 
A.6 节 中 所 讨论 的 ， 第 11 行 的 调用 expr .jumping (0,a) 指明 如 果 expr 的 值 
为 真 ， 控 制 流 必须 穿越 expr 的 代码 ;否则 控制 流 必 须 转 同 标 号 a。 


类 Else 处 理 条 件 语句 的 else 部 分 。 它 的 实现 和 类 If 的 实现 类 似 : 








1) package inter; // 文件 Blse.java 
2) import symbols.*; 

3) public class Else extends Stmt 1 

4) Expr expr; Stmt stmt1l, stmt2; 

5) public Else(Expr x, Stmt si, Stmt s2) { 


6) expr = x; stmt1 = si; stmt2 = s2; 

7) if( expr.type != Type.Bool ) expr.error("boolean required in if"); 
8 

9 public void gen(int b, int a) { 

10 int labell = newlabel(); // labell 用 于 语句 stmt1 


) 
) 
) 
) int label2 = newlabel(); // labe12 用 于 语句 stmt2 
12) expr.jumping(0,1abe12) ; // 为 真 时 控制 流 穿越 到 stmt1 
) emitlabel(label1); stmti.gen(labeli, a); emit("goto L" + a); 
) emitlabel(label2); stmt2.gen(label2, a); 
) } 
)} 


一 个 while 对 象 的 构造 过 程 分 为 两 个 部 分 : 构造 函数 while() 创 建 了 
一 个 子 结 点 为 空 的 结 点 《第 5 行 ) ;初始 化 函数 int (x,s) 把 子 结 点 expr 
设置 成 为 x， 把 子 结 点 stmt 设 置 成 为 s〈 第 6 一 9 行 ) 。 函 数 gen (b,a) 用 
于 生成 三 地 址 代码 〈 第 10 一 16 行 ) 。 它 和 类 If 中 的 相应 函数 gen() 在 本 
质 上 有 着 相通 之 处 。 不 同 之 处 在 于 标号 a 被 保存 在 字段 after 中 《第 11 
行 )， 且 stmt 的 代码 之 后 紧 跟着 一 个 目标 为 b 的 跳 转 指令 (第 15 行 )。 
这 个 指令 使 得 while 循 环 进 入 下 一 次 迭代 。 





1) package inter; // 文件 While.java 
2) import symbols.*; 

3) public class While extends Stmt { 

4) Expr expr; Stmt stmt; 

5) public While() { expr = null; stmt = null; } 
6) public void init(Expr x, Stmt s) { 


7) expr = x; stmt = s; 

8) if( expr.type != Type.Bool ) expr.error("boolean required in while"); 
9) } 

10) public void gen(int b, int a) { 

11) after = a; // 保存 标号 a 

12) expr.jumping(0, a); 

13) int label = newlabel(); // 用 于 stmt 的 标号 
14) emitlabel(label); stmt.gen(label, b); 

15) emit("goto L" + b); 

16) 3} 

17)} 


类 po 和 类 while 非 常 相似 。 


1) package inter; // 文件 Do.java 
2) import symbols.*; 

3) public class Do extends Stmt { 

4) Expr expr; Stmt stmt; 

5) public Do() { expr = null; stmt = null; } 
6) public void init(Stmt s, Expr x) { 


7) expr = x; stmt = s; 

8) if( expr.type != Type.Bool ) expr.error("boolean required in do'); 
9) } 

10) public void gen(int b, int a) { 

11) after = a; 

12) int label = newlabel();  // 用 于 expr 的 标号 
13) stmt .gen(b,1label); 

14) emitlabel (label); 

15) expr. jumping(b,0); 

16) } 

1 小 





类 set 实 现 了 左 部 为 标识 符 且 右 部 为 一 个 表达 式 的 赋值 语句 。 在 
类 set 中 的 大 部 分 代码 的 目的 是 构造 一 个 结 点 并 进行 类 型 检查 〈 第 5 一 13 
行 ) 。 函 数 gen 生 成 一 个 三 地 址 指令 《第 14 一 16 行 ) 。 








1) package inter; // 文件 Set.java 

2) import lexer.*; import symbols.*; 

3) public class Set extends Stmt { 

4) public Id id; public Expr expr; 

5) public Set(Id i, Expr x) { 

6) id = i; expr = xX; 

7) if ( check(id.type, expr.type) == null ) error("type error'"); 
8) } 

9) public Type check(Type pl, Type p2) 1 
10) if ( Type.numeric(p1) && Type.numeric(p2) ) return p2; 
11) else if ( pl == Type.Bool && p2 == Type.Bool ) return p2; 
12) else return null; 
13) } 
14) public void gen(int b, int a) { 
15) emit( id.toString() + " = " + expr.gen().toString() ); 
16) } 
17}.} 


类 setElem 实 现 了 对 数组 元 素 的 赋值 。 


1) package inter; // 文件 SetBlem.java 

2) import lexer.*; import symbols.*; 

3) public class SetElem extends Stmt { 

4) public Id array; public Expr index; public Expr expr; 


5) public SetElem(Access x, Expr y) { 

6) array = x.array; index = x.index; expr = y; 

7) if ( check(x.type, expr.type) == null ) error('"type error'"); 
8) 

9) public Type check(Type pl, Type p2) 1{ 

10) if ( pl instanceof Array || p2 instanceof Array ) return null; 
11) else if ( pl == p2 ) return p2; 

12) else if ( Type.numeric(p1) && Type.numeric(p2) ) return p2; 
13) else return null; 

14) } 

15) public void gen(int b, int a) { 

16) String si = index.reduce().toString(); 

17) String s2 = expr.reduce().toString(); 

18) emit(array.toString() + " ["+si+"]= "+ s2); 

19) } 

20) } 





类 Seq 实现 了 一 个 语句 序列 。 在 第 6 一 7 行 上 对 空 语句 的 测试 是 为 了 
避免 使 用 标号 。 请 注意 ， 空 语句 stmt ,Null 不 会 产生 任何 代码 ， 因 为 
类 stmt 中 的 方法 gen 不 做 任何 处 理 。 





1) package inter; // 文件 Seq.java 

2) public class Seq extends Stmt { 

3) Stmt stmt1; Stmt stmt2; 

4) public Seq(Stmt si, Stmt s2) { stmti = si; stmt2 = s2; } 
5) public void gen(int b, int a) { 


6) if ( stmt1l == Stmt.Null ) stmt2.gen(b, a); 

7) else if ( stmt2 == Stmt.Null ) stmti.gen(b, a); 
8) else { 

9) int label = newlabel(); 

10) stmti.gen(b,label); 

LE) emitlabel(label); 

12) stmt2.gen(label ,a); 

13) } 

14) } 

15) } 


一 个 break 语 句 把 控制 流转 出 它 的 外 围 循环 或 外 围 switch 语 句 。 
类 Break 使 用 字段 stmt 来 保存 它 的 外 围 语句 构造 (语法 分 析 器 保证 
Stmt. Enclosing 表 示 下 其 外 围 构造 对 应 的 语法 树 结 Fe 一 个 Break 对 象 
的 代码 是 一 个 目标 为 标号 stmt .after 的 跳 转 指令 。 这 个 标号 标记 了 紧 跟 
在 stmt 的 代码 之 后 的 指令 。 


1) package inter; // 文件 Break.java 
2) public class Break extends Stmt { 

3) Stmt stmt; 

4) public Break() { 


5) if( Stmt.Enclosing == Stmt. null ) error("unenclosed break"); 
6) stmt = Stmt.Enclosing; 

7) } 

8) public void gen(int b, int a) + 

9) emit( "goto L" + stmt.after); 

10) 


A.8 语法 分 析 器 


语法 分 析 吉 读 入 一 个 由 词法 单元 组 成 的 流 ， 并 调用 适当 的 在 A.5 一 
A.7 节 中 讨论 的 构造 函数 ， 构 建 出 一 棵 抽象 语法 树 。 当 前 符号 表 按 照 2.7 
市 中 图 2-38 的 翻译 方案 进行 处 理 。 


包 parser 包 含 一 个 类 parser: 


1) package parser; // 文件 Parser.java 

2) import java.io.*; import lexer.*; import symbols.*; import inter.*; 
3) public class Parser { 

4) private Lexer lex; // 这 个 语法 分 析 器 的 词法 分 析 器 

5) ”private Token look;  // 癌 前 看 词法 单元 

6) Env top = null; // 当前 或 顶层 的 符号 表 

int used = 0; // 用 于 变量 声明 的 存储 位 置 
8) 
9) 
10) 
11) 





public Parser(Lexer 1) throws IOException { lex = 1; move(); } 
void move() throws I0Exception { look = lex.scan(); } 
void error(String s) { throw new Error("near line "+lex.linet+": "+s); } 
void match(int t) throws IOException { 
12) if( look.tag == t ) move(); 
13) else error("syntax error'"); 


和 2.5 节 中 的 简单 表达 式 的 翻译 器 类 似 ， 类 Parser 对 每 个 非 终结 符 扎 
有 一 个 过 程 。 消 除 A.1 节 中 源 语言 文法 中 的 左 递归 后 可 以 得 到 一 个 新 的 
文法 。 这 些 过 程 就 是 基于 这 个 新 文法 创建 的 。 

语法 分 析 过 程 首先 调用 了 过 程 program， 这 个 过 程 又 调用 了 block() 
(第 16 行 ) 来 对 输入 流 进行 语法 分 析 ， 并 构建 出 抽象 语法 树 。 第 17~18 
行 生 成 了 中 间 代 码 。 








) public void program() throws IOException { // program -> block 
16) Stmt s = block(); 

) int begin = s.newlabel(); int after = s.newlabel(); 

) s.emitlabel(begin); s.gen(begin, after); s.emitlabel(after); 
19) 3} 


对 符号 表 的 处 理 明 确 显示 在 过 程 block 中 印 。 变 量 top (在 第 5 行 中 
声明 ) 存放 了 最 顶层 的 符号 表 ， 变 量 savedEnv〈 第 21 行 ) 是 一 个 指 同 前 
面 的 符号 表 的 连接 。 











20) Stmt block() throws IOException { // block -> { decls stmts } 


21) match(’{’); Env savedEnv = top; top = new Env(top); 
22) decls(); Stmt s = stmts(); 

23) match(’}’); top = savedEnv; 

24) return s; 

25) } 











”程序 中 的 声明 会 被 处 理 为 符号 表 中 有 只 符 的 条 目 〈“ 见 第 30 
行 ) 。 虽 然 这 里 没有 显示 ， 声 明 还 可 能 生成 在 运行 时 刻 为 标识 符 保 留存 
储 空间 的 指令 。 


26) void decls() throws IOException { 


27) while( look.tag == Tag.BASIC ) { //D -> type ID ; 

28) Type p = type(); Token tok = look; match(Tag.ID); match(’;’); 
29) Id id = new Id((Word)tok, p, used); 

30) top.put( tok, id ); 

31) used = used + p.width; 

32) } 

33)  】 

34) Type type() throws IOException { 

35) Type p = (Type)look; // 期 望 1ook.tag == Tag.BASIC 
36) match(Tag.BASIC) ; 

37) if( look.tag != ’[’ ) return p; // T -> basic 

38) else return dims(p); // 返回 数组 类 型 

39) } 

40) Type dims(Type p) throws IOException { 

41) match(’[’); Token tok = look; match(Tag.NUM); match(’]’); 
42) if( look.tag == ’[’ ) 

43) p = dims(p); 

44) return new Array(((Num)tok).value, p); 

45) 


过 程 stmt 有 一 个 switch 语 句 。 这 个 语句 的 各 个 case 分 文 对 应 于 非 终 
结 符号 stmt 的 各 个 产生 式 。 每 个 case 分 支 都 使 用 A.7 节 中 讨论 的 构造 函数 
来 建立 某 个 构造 对 应 的 结 点 。 当 语法 分 析 器 倍 到 while 语 句 和 do 语句 的 
开始 关键 字 的 时 候 ， 就 会 创建 这 些 语句 的 结 点 。 这 些 结 点 在 相应 语句 进 
行 完 语法 分 析 之 前 就 构造 出 来 ， 这 可 以 使 得 任何 内 层 的 break 语 句 回 指 
到 它 的 外 层 循环 语句 。 当 出 现 艇 套 的 循环 时 ， 我 们 通过 使 用 类 stmt 中 的 
Nn (在 第 52 行 声明 ) 来 保存 当前 的 外 层 循 
环 的 。 





46) Stmt stmts() throws IOException { 


47) if ( look.tag == ’}’ ) return Stmt.Null; 

48) else return new Seq(stmt(), stmts()); 

49) } 

50) Stmt stmt() throws IOException { 

51) Expr x; Stmt s, si, s2; 

52) Stmt savedStmt ; // 用 于 为 break 语 名 保存 外 层 的 循环 语句 
53) switch( look.tag ) { 

54) case ’;’: 

55) move(); 

56) return Stmt.Null; 

57) case Tag.IF: 

58) match(Tag.IF); match(’(’); x = bool(); match(’)’); 
59) si = stmt(); 

60) if( look.tag != Tag.ELSE ) return new If(x, s1); 

61) match(Tag.ELSE) ; 

62) s2 = stmt(); 

63) return new Else(x, sl, s2); 

64) case Tag.WHILE: 

65) While whilenode = new While(); 

66) savedStmt = Stmt.Enclosing; Stmt.Enclosing = whilenode; 
67) match(Tag.WHILE); match(’(’); x = bool(); match(’)’); 
68) sl = stmt(); 

69) whilenode.init(x, s1); 

70) Stmt .Enclosing = savedStmt; // 重 置 Stmt .Enclosing 
71) return whilenode; 

72) case Tag.D0: 

73) Do donode = new Do(); 

74) savedStmt = Stmt.Enclosing; Stmt.Enclosing = donode; 
75) match(Tag.D0); 

76) si = stmt(); 

77) match(Tag.WHILE); match(’(’); x = bool(); match(’)’); match(’;’); 
78) donode .init(s1，xX) ; 

79) Stmt ,Enclosing = savedStmt; // 重 置 Stmt .Enclosing 
80) return donode; 

81) case Tag.BREAK: 

82) match(Tag.BREAK); match(?;’); 

83) return new Break(); 

84) case {7: 

85) return block(); 

86) default: 

87) return assign(); 

88) } 

89) } 


为 方便 起 见 ， 赋 值 语句 的 代码 出 现在 一 个 辅助 过 程 assign 中 。 


90) Stmt assign() throws IOException { 

91) Stmt stmt; Token t = look; 

92) match(Tag.1D); 

93) Id id = top.get(t); 

94) if( id == null ) error(t.toString() + " undeclared"); 
95) if( look.tag == ?= ) + // 5S -> id=E; 
96) move(); stmt = new Set(id, bool()); 

97) 上 

98 ) else { //S->L=E ; 
99 ) Access x = offset(id); 

100) match(’=’); stmt = new SetElem(x, bool()); 
101) } 

102) mateht ?7)s 

103) return stmt; 

104) 小 


对 算术 运算 和 布尔 表达 式 的 语法 分 析 很 相似 。 在 每 种 情况 下 都 会 创 
建 一 个 正确 的 抽象 语法 树 结 点 。 如 A.5 节 和 A.6 节 所 讨论 的 ， 这 两 者 的 代 
码 生成 方法 有 所 不 同 。 


105) Expr bool() throws IOException { 


106) Expr x = join(); 
107) while( look.tag == Tag.0R ) { 
108 Token tok = look; move(); x = new 0r(tok, x, join()); 


) 
109) } 
) 


return X; 


111) } 

Ly Expr join() throws IOException 1 

113) Expr x = equality(); 

114) while( look.tag == Tag.AND ) { 

115) Token tok = look; move(); x = new And(tok, x, equality()); 
116) 3 

117) return x; 

118) 3} 

119) Expr equality() throws I0OException { 

120) Expr x = rel(); 

121) while( look.tag == Tag.EQ || look.tag == Tag.NE ) + 

122) Token tok = look; move(); x = new Rel(tok, x, rel()); 
123) } 

124) return x; 

125) 3} 

126) Expr rel() throws IOException { 

127) Expr x = expr(); 

128) switch( look.tag ) { 

129) case ’<’: case Tag.LE: case Tag.GE: case ?>?: 

130) Token tok = look; move(); return new Rel(tok, x, expr()); 
131) default: 

132) return x; 

133) } 

134) + 

135) ~ Expr expr() throws IOException { 

136) Expr x = term(); 

137) while( look.tag == ’+’ || look.tag == ’-’ ) {i{ 

138) Token tok = look; move(); x = new Arith(tok, x, term()); 
139) } 

140) return x; 

141) } 


142) Expr term() throws IOException { 


143) Expr x = unary(); 

144) while(look.tag == ’*’ || look.tag == 2/” ) { 

145) Token tok = look; move(); x = new Arith(tok, x, unary()); 
146) } 

147) return XxX; 

148) } 

149) Expr unary() throws IOException { 

150) if( look.tag == ’-’ ) 

151) move(); return new Unary(Word.minus, unary()); 

152) } 

153) else if( look.tag == ’!’? ) { 

154) Token tok = look; move(); return new Not(tok, unary()); 
155) } 

156) else return factor(); 

157) } 


在 语法 分 析 絮 中 的 其 余 代 码 处 理 表 达 式 “因子 ”。 辅 助 过 程 offset 按 
照 6.4.3 节 中 讨论 的 方法 为 数组 地 址 计算 生成 代码 。 


Expr factor() throws IOException { 


Expr x = null; 
switch( look.tag ) { 


case )()，: 
move(); x = bool(); match(’)’); 
return x; 
case Tag.NUM: 
x = new Constant(look, Type.Int); move(); return x; 


case Tag.REAL: 

x = new Constant(look, Type.Float); move(); return x; 
case Tag.TRUE: 

X = Constant.True; move(); return x; 
case Tag.FALSE: 


x = Constant.False; move(); return x; 
default: 

error('"syntax error"); 

return Xx; 
case Tag.ID: 

String s = look.toString(); 

Id id = top.get(look); 

if( id == null ) error(look.toString() + " undeclared"); 

move(); 

if( look.tag != ’[’ ) return id; 

else return offset(id); 


小 


Access offset(Id a) throws IOException { //I-> [E] | [E] I 


Expr i; Expr wj Expr t1, t2; Expr loc; // 继承 ia 
Type type = a.type; 
match(’?[’); i = bool(); match(’]’); // 第 一 个 下 标 ，I ->[E] 
type = ((Array)type) .of ; 
W = new Constant (type.width); 
tl1 = new Arith(new Token(’*’), i, Ww); 
loc = ti1; 
while( look.tag == :[， ) { // 多 维 下 标 ，I ->[E]I 
match(’?[’); i = bool(); match(’]’); 
type = ((Array)type) .of ; 
W = new Constant(type.width); 
t1 = new Arith(new Token(’*’), i, Ww); 
t2 = new Arith(new Token(’+’), loc, t1); 
loc = t2; 
$ 


return new Access(a, loc, type); 


A.9 创建 前 端 


这 个 编译 器 的 各 个 包 的 代码 存放 在 五 个 目录 中 : main、lexer、 
symbols、parser 和 inter。 创 建 编译 器 的 命令 行 根据 系统 的 不 同 而 不 
同 。 下 面 是 编译 器 的 UNIX 实 现 : 





javac lexer/*.java 
Javac symbols/*.java 
javac inter/*.java 
javac parser/*.java 
javac main/*.java 





上 面 的 javac 命 令 为 每 个 类 创建 了 ,class 文 件 。 要 练习 使 用 我 们 的 
翻译 器 ， 只 需要 输入 java main.Main， 后 面 跟 上 将 要 被 翻译 的 源 程序 ， 
比如 文件 test 中 的 内 容 : 


1) + // 文件 test 
2) int i; int j; float v; float x; float[100] a; 
3) while( true ) { 


4) do i = i+l; while( a[i] < v); 

5) do j = j-1i; while( a[j] > Vv); 

6) if( i >= j ) break; 

7) x = a[i]; a[il] = a[j]; a[lj] = x; 
8) Me 

9) } 


1) Li:L3:i =i+1 
2) L5: tli1=i*8 
引 t2 =aridij 
4) if t2 < v goto L3 
5)L4: j=j-1 
6) L7: 2 = * 8 
7) a [t3] 
8) t4 > v goto L4 
9) L6: iffalse i >= j goto L8 
10) L9: goto L2 
11)L8: t5=i*8 
12) x=a[Lt5] 
13) Li0: t+6=i*8 
14) t7=j*r8 
15) t8 =al[t7] 
16) a [t6]=t8 
17) L11: t9=j*r8 
18) a[t9]=x 
19) goto L1 
20) L2s 
党 试 一 下 。 





[1 为 了 报告 错误 ， 在 构造 一 个 结 点 时 ， 类 Node 中 的 字段 lexline 记 
录 了 当前 的 文本 行 号 。 我 们 把 在 中 间 代 码 生 成 过 程 中 构造 新 的 结 点 时 跟 
宗 行 号 的 任务 留 给 读者 。 


[21 另 一 种 可 行 的 方法 是 让 这 个 构造 函数 以 一 个 表达 式 结 点 作为 参 
数 ， 这 样 它 就 可 以 复制 这 个 表达 式 结 点 的 类 型 和 文本 位 置 。 


81 ed 力 的 方法 是 向 类 Env 中 添加 方法 push 和 pop， 
而 当前 的 符号 表 可 以 通过 一 个 静态 变量 Env.top 来 访问 。 


附录 B 寻找 线性 独立 解 
算法 B.1 找 出 Az=0 的 最 大 的 线性 独立 解 集合 ， 并 将 它们 表示 为 矩 
阵 B 的 各 行 。 
输入 : 一 个 MxN 的 和 矩阵 A。 
输出 : 由 AX 宇 0 的 各 个 线性 独立 解 组 成 的 矩阵 B。 
方法 : 算法 以 伪 代 码 的 方式 在 下 面 给 出 。 请 注意 ，X [yj」] 表 示 算 


阵 X 的 第 y 行 ，X [y: zj] 表示 和 矩阵 X 的 第 y~~z 行 ， 而 X Ly: z] Lu: 
v] 表示 符 阵 X 中 的 第 y 一 z 行 及 第 u 一 v 列 的 方块 。 





M = 47; 

70 一 | 

co=1; 

B = nxn; /* 一 个 nxn 的 单元 矩阵 */ 





while ( true ) { 


/* 1. 使 Mlro :7'-1j[co :c -1] 为 一 个 对 角 线 元 素 为 正 的 对 角 算 
阵 ， 并 且 满 足 M [7 :nj[co :rm = 0。M[r' :nj] 为 解 。*/ 
人 0 
Cl -一 一 的 
wide (存在 M[r] [cl 寺 0) 使 得 
7 一 "和 c 一 c 都 >0){ 
通过 行列 互 换 ， 把 中 心 点 MIm][a 移动 到 MIm][c] 
把 召 中 的 第 + 行 和 第 7' 行 互 换 ; 
if ( Ml[r"][c] <0)1 
MI = -1* MI[r']; 
BIr] = -1 * BI7]: 


for (row=7o ton)t 
if ( row #7 and Ml[rowllce] #0)t 
wu = —(M [rowlle]/M (re)); 
Mlrow] = Mlrow] + wu* MI[r']; 
Blrow] = Blrow] + u* BI7']; 


} 


/* 2. 找 出 M[r' :中 之 外 的 一 个 解 ， 这 个 解 一 定 是 
M[ro : 7’ 1][co : m] 的 一 个 非 负 组 合 */ 
找 出 kro,. sw ,Kr'—1 之 0 使 得 
kro Mlrol[e :ml + + kr 1MIr’ -HIc :ml > 0; 
证 ( 如 果 存 在 一 个 非 平 几 解 ， 比 如 k. > 0 ) { 
MI[r] = kro M[ro] + + kr MIr’ -1]; 
NoMoreSoln = false; 
jelse /* MI : n] 就 是 全 部 解 */ 
NoMoreSoln = true; 
/* 3. 使 得 Mlro :rn-1]lco:m] 宛 0*/ 
证 ( NoMoreSoln ) { /* 把 解 人 MIr' :nn 移动 到 Ml[ro :rn-1]*/ 
for (r=7 ton) 
交换 M 和 召 中 的 行 ? 和 mo 十 了 一 
rn 二 7To0 十 nn 一 7 十 1;} 


else { /* 使 用 入 加 的 方法 来 找 出 更 多 的 解 oy 


rm 一 你 十 十 
for (col=¢ tom) 
站 (存在 M[row][col] < 0 使 得 row > ro) 
if ( 存在 M[r][col] > 0 使 得 7 之 7o ) 
{for(row=rotorn—1) 
证 ( Ml[lrowl][col] <0)1 

u = [|(-M [rowllcol]/M {r][eol])l; 
Ml[row] = Mlrow] + wu * MI[r]; 
Blrow]| = Blrow] + wu* Bl7]; 


} 
else 
for ( row = rn— 1 toro step -1) 

if ( Ml[rowl][col] < 0){ 
i 
把 M[row] 和 M[rn] 对 换 ; 
把 B[row] 和 B[rn] 对 换 ; 

于 


/* 4. 使 得 M[ro :7n 一 1][1 :co 一 1]>0*/ 
for ( row =rotorn 一 1) 
for (col=1toco—1) 
if ( Mrowj[coll < 0 ){ 

选取 一 个 7 使 得 Mi[rj[col] > 0 且 ” < ro; 
u = [(-M[rowllcol]/M [rl][lcol])l; 
Mlrow] = Ml[row] + wu * MIr]; 
Blrow] = Blrow] + u* Bl[7]; 


/* 5. 如 果 有 必要 ， 对 M [rn : nl] 中 的 各 行 重复 处 理 */ 
if (NoMoreSoln or rn > n or rn == 70) 

从 BB 中 删除 从 Tw 到 n 各 行 ; 

return B; 
二 
else { 

cn 三 7m0 十 二 ; 

for (col = m to 1 step -1 ) 

站 (不 存在 M[r][col] > 0 使 得 7 < rn ) 
人 By = 1 


交换 M 中 的 第 col 列 和 第 cw 列 : 


} 
70 二 Tn) 
Co = Cn) 


